首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何为stanford tagger创建自己的训练语料库?

如何为stanford tagger创建自己的训练语料库?
EN

Stack Overflow用户
提问于 2010-07-01 16:49:46
回答 4查看 7.6K关注 0票数 15

我必须用大量的短手和当地的行话来分析非正式的英语文本。因此,我正在考虑为斯坦福大学的标记器创建模型。

如何创建自己的标注语料库,供斯坦福大学的标记者进行训练?

语料库的语法是什么?我的语料库应该保持多长时间才能达到理想的性能?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-07-01 21:20:38

要训练PoS标记器,请参阅this mailing list post,它也包含在MaxentTagger类的JavaDocs中。

edu.stanford.nlp.tagger.maxent.Train class的javadoc指定了训练格式:

培训文件应采用以下格式:每行一个单词和一个标记,由空格或制表符分隔。每句话都应该以EOS单词-标签对结束。(实际上,我不完全确定这种情况是否仍然存在,但它可能不会有什么坏处。-wmorgan)

票数 8
EN

Stack Overflow用户

发布于 2013-10-22 21:16:33

基本上,您为训练过程格式化的文本应该在每行上有一个标记,后跟一个制表符,然后是一个标识符。标识符可以是类似于"LOC“的位置,"COR”的公司,或"0“的非实体令牌。例如。

代码语言:javascript
复制
I     0
left     0
my     0
heart     0
in     0
Kansas     LOC
City     LOC
.     0

当我们的团队训练了一系列分类器时,我们给每个分类器提供了一个格式为这样的训练文件,大约有18万个令牌,我们看到了精度的净提高,但召回率的净下降。(值得注意的是,精度的提高在统计上并不显著。)如果它可能对其他人有用,我描述了我们用来训练分类器的过程,以及训练过的分类器和默认分类器here的p、r和f1值。

票数 7
EN

Stack Overflow用户

发布于 2010-07-01 21:14:24

对于Stanford解析器,您可以使用Penn treebank format,并查看Stanford's FAQ以了解要使用的确切命令。LexicalizedParser class的JavaDocs还提供了适当的命令,特别是:

代码语言:javascript
复制
java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
   -train trainFilesPath fileRange
   -saveToSerializedFile serializedGrammarFilename
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3156256

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档