我试图向CRF++模板添加更多功能。
根据我如何告诉CRF++分类器,一个单词x被修饰或理解标点符号?
训练样本
The DT 0 1 0 1 B-MISC
Oxford NNP 0 1 0 1 I-MISC
Companion NNP 0 1 0 1 I-MISC
to TO 0 0 0 0 I-MISC
Philosophy NNP 0 1 0 1 I-MISC特征模板
# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%x[1,0]
U07:%x[-2,0]/%x[-1,0]/%x[0,0]
#shape feature
U08:%x[-2,2]
U09:%x[-1,2]
U10:%x[0,2]
U11:%x[1,2]
U12:%x[2,2]
B列车运行阶段还好。但我和crf_test没有关系
tilney@ubuntu:/data/wikipedia/en$ crf_test -m validation_model test.data
tilney@ubuntu:/data/wikipedia/en$ 如果忽略上面的形状恐惧,一切都会很好。我哪里出错了?
发布于 2014-12-09 06:46:29
我想出来了。这是我的测试数据的问题。我认为每个特性都应该从经过训练的模型中获取,所以我的测试数据中只有两列: word标记,这表明测试文件应该具有与训练数据完全相同的格式。
https://stackoverflow.com/questions/27313843
复制相似问题