我必须用大量的短手和当地的行话来分析非正式的英语文本。因此,我正在考虑为斯坦福大学的标记器创建模型。
如何创建自己的标注语料库,供斯坦福大学的标记者进行训练?
语料库的语法是什么?我的语料库应该保持多长时间才能达到理想的性能?
发布于 2010-07-01 21:20:38
要训练PoS标记器,请参阅this mailing list post,它也包含在MaxentTagger类的JavaDocs中。
edu.stanford.nlp.tagger.maxent.Train class的javadoc指定了训练格式:
培训文件应采用以下格式:每行一个单词和一个标记,由空格或制表符分隔。每句话都应该以EOS单词-标签对结束。(实际上,我不完全确定这种情况是否仍然存在,但它可能不会有什么坏处。-wmorgan)
发布于 2013-10-22 21:16:33
基本上,您为训练过程格式化的文本应该在每行上有一个标记,后跟一个制表符,然后是一个标识符。标识符可以是类似于"LOC“的位置,"COR”的公司,或"0“的非实体令牌。例如。
I 0
left 0
my 0
heart 0
in 0
Kansas LOC
City LOC
. 0当我们的团队训练了一系列分类器时,我们给每个分类器提供了一个格式为这样的训练文件,大约有18万个令牌,我们看到了精度的净提高,但召回率的净下降。(值得注意的是,精度的提高在统计上并不显著。)如果它可能对其他人有用,我描述了我们用来训练分类器的过程,以及训练过的分类器和默认分类器here的p、r和f1值。
发布于 2010-07-01 21:14:24
对于Stanford解析器,您可以使用Penn treebank format,并查看Stanford's FAQ以了解要使用的确切命令。LexicalizedParser class的JavaDocs还提供了适当的命令,特别是:
java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
-train trainFilesPath fileRange
-saveToSerializedFile serializedGrammarFilenamehttps://stackoverflow.com/questions/3156256
复制相似问题