文章/答案/技术大牛

发布

社区首页 >问答首页 >如何为stanford tagger创建自己的训练语料库？

问如何为stanford tagger创建自己的训练语料库？
EN

Stack Overflow用户

提问于 2010-07-01 16:49:46

回答 4查看 7.6K关注 0票数 15

我必须用大量的短手和当地的行话来分析非正式的英语文本。因此，我正在考虑为斯坦福大学的标记器创建模型。

如何创建自己的标注语料库，供斯坦福大学的标记者进行训练？

语料库的语法是什么?我的语料库应该保持多长时间才能达到理想的性能？

java

nlp

stanford-nlp

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-07-01 21:20:38

要训练PoS标记器，请参阅this mailing list post，它也包含在MaxentTagger类的JavaDocs中。

edu.stanford.nlp.tagger.maxent.Train class的javadoc指定了训练格式：

培训文件应采用以下格式:每行一个单词和一个标记，由空格或制表符分隔。每句话都应该以EOS单词-标签对结束。(实际上，我不完全确定这种情况是否仍然存在，但它可能不会有什么坏处。-wmorgan)

票数 8

Stack Overflow用户

发布于 2013-10-22 21:16:33

基本上，您为训练过程格式化的文本应该在每行上有一个标记，后跟一个制表符，然后是一个标识符。标识符可以是类似于"LOC“的位置，"COR”的公司，或"0“的非实体令牌。例如。

I     0
left     0
my     0
heart     0
in     0
Kansas     LOC
City     LOC
.     0

当我们的团队训练了一系列分类器时，我们给每个分类器提供了一个格式为这样的训练文件，大约有18万个令牌，我们看到了精度的净提高，但召回率的净下降。(值得注意的是，精度的提高在统计上并不显著。)如果它可能对其他人有用，我描述了我们用来训练分类器的过程，以及训练过的分类器和默认分类器here的p、r和f1值。

票数 7

Stack Overflow用户

发布于 2010-07-01 21:14:24

对于Stanford解析器，您可以使用Penn treebank format，并查看Stanford's FAQ以了解要使用的确切命令。LexicalizedParser class的JavaDocs还提供了适当的命令，特别是：

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
   -train trainFilesPath fileRange
   -saveToSerializedFile serializedGrammarFilename

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3156256

复制

相似问题

问如何为stanford tagger创建自己的训练语料库？
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为stanford tagger创建自己的训练语料库？EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为stanford tagger创建自己的训练语料库？
EN