我正在尝试提供SimpleTagger教程的这里。我运行了与页面上提供的完全相同的命令,即
java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --train true --model-file nouncrf sample
和
java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --model-file nouncrf stest。
这是我的sample和stest文件。
$ cat sample
Bill CAPITALIZED noun
slept non-noun
here LOWERCASE STOPWORD non-noun$ cat stest
CAPITAL Al
slept
here但是,我的输出与他们页面上的输出不同。这是我得到的输出。
Number of predicates: 9
noun
non-noun
non-noun 我的问题是
我用的是Mallet 2.0.8,如果有关系的话。
发布于 2017-11-21 15:27:30
当您开始培训时,SimpleTagger给您的第一个消息是:
Number of features in training data: x
Number of predicates: y谓词的数量y是训练数据包含的不同标记(或行)的数量。
当您使用上一篇文章中的模型(它有y谓词)给一个文件贴上标签时,您会得到一条消息:
Number of predicates: z这个z是要标记的文件包含的y和不同标记(或行)的总和。这就是为什么z总是大于(或等于) y的原因。例如,如果您尝试将一个空的内容文本文件标记为一个具有y谓词的模型,那么您将得到许多谓词y (即y + 0 = y ),因为您的空文件有0标签。
https://stackoverflow.com/questions/44734518
复制相似问题