文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用OpenNLP对文本进行基于分类的标记？

问如何使用OpenNLP对文本进行基于分类的标记？
EN

Stack Overflow用户

提问于 2014-02-05 05:50:26

回答 1查看 856关注 0票数 0

我想根据它属于的类别来标记文本..。

例如..。

“离合器和齿轮采用微芯片”->离合器/mechanical，齿轮/机械，微芯片/电子。

“用于监测氢水平的软件”->软件/计算机、氢/化学。

如何使用openNLP或其他NLP引擎完成此操作。

我的作品

我尝试了NER模型，但它需要大量的训练语料库，而我没有？

我的需要

是否有现成的培训语料库可供导航或分类使用(它必须包含科学和工程词汇)。？

machine-learning

nlp

stanford-nlp

opennlp

text-classification

回答 1

Stack Overflow用户

发布于 2014-02-05 13:34:51

如果要为整个句子创建一组类标签，则需要使用Doccat。使用Doccat，您将得到每个文本块的prob分布。使用doccat，您的样本将生成如下内容：

离合器和齿轮用微芯片“->机械0.85847568，电子0.374658”进行监测。

使用doocat，您将失去关键字-> cut标签映射，因此如果您真的需要它，doccat可能不会剪掉它。

至于NER，OpenNLP有一个名为Modelbuilder的插件，它可能对您有帮助。它的设计目的是加速建立新的模型。您可以为每个类别创建一个文件/列表，尽可能多地列出每个类别的术语，然后创建一组句子的文件，然后使用addon创建一个使用种子术语和句子文件的NER模型。请参阅我之前用代码示例描述的这篇文章。你必须从SVN中删除这个副词。

OpenNLP: foreign names does not get recognized

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21569597

复制

相似问题

问如何使用OpenNLP对文本进行基于分类的标记？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用OpenNLP对文本进行基于分类的标记？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用OpenNLP对文本进行基于分类的标记？
EN