当我对我的训练数据(train.txt)运行CRF++时,我得到了以下错误
C:\Users\2012\Desktop\CRF_Software_Package\CRF++-0.58>crf_learn template train.d
ata model
CRF++: Yet Another CRF Tool Kit
Copyright (C) 2005-2013 Taku Kudo, All rights reserved.
reading training data: tagger.cpp(393) [feature_index_->buildFeatures(this)]
0.00 s我的训练数据包含Unicode字符,并且使用记事本(encoding= Unicode大印度)保存数据。
我不确定是模板的问题还是训练数据的格式问题。如何检查训练数据的格式?
发布于 2013-06-11 11:36:25
我想这是因为你的模板文件。请检查您是否已将最后一列作为培训特征包括在内,这是黄金标准。列索引从0开始。例如,如果你的BIO文件中有6列。模板不应包含%x0,5之类的内容
发布于 2015-05-17 22:21:10
问题是模板文件检查您的要素是否有不正确的“语法”,即U10:%x-1,0/%0,0
您意识到,在第二个%之后,缺少一个'x‘,更正后的行应如下所示:%x-1,0/%x0,0
发布于 2016-02-16 17:42:24
我也遇到过同样的问题,文件是UTF-8格式的,模板文件和训练文件的格式肯定是正确的。原因是CRFPP在输入文件中最多期望1024列。如果它能在这种情况下输出一条适当的错误消息,那就太好了。
https://stackoverflow.com/questions/16886251
复制相似问题