首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用OpenNLP对文本进行基于分类的标记?

如何使用OpenNLP对文本进行基于分类的标记?
EN

Stack Overflow用户
提问于 2014-02-05 05:50:26
回答 1查看 856关注 0票数 0

我想根据它属于的类别来标记文本..。

例如..。

“离合器和齿轮采用微芯片”->离合器/mechanical,齿轮/机械,微芯片/电子。

“用于监测氢水平的软件”->软件/计算机、氢/化学。

如何使用openNLP或其他NLP引擎完成此操作。

我的作品

我尝试了NER模型,但它需要大量的训练语料库,而我没有?

我的需要

是否有现成的培训语料库可供导航或分类使用(它必须包含科学和工程词汇)。?

EN

回答 1

Stack Overflow用户

发布于 2014-02-05 13:34:51

如果要为整个句子创建一组类标签,则需要使用Doccat。使用Doccat,您将得到每个文本块的prob分布。使用doccat,您的样本将生成如下内容:

离合器和齿轮用微芯片“->机械0.85847568,电子0.374658”进行监测。

使用doocat,您将失去关键字-> cut标签映射,因此如果您真的需要它,doccat可能不会剪掉它。

至于NER,OpenNLP有一个名为Modelbuilder的插件,它可能对您有帮助。它的设计目的是加速建立新的模型。您可以为每个类别创建一个文件/列表,尽可能多地列出每个类别的术语,然后创建一组句子的文件,然后使用addon创建一个使用种子术语和句子文件的NER模型。请参阅我之前用代码示例描述的这篇文章。你必须从SVN中删除这个副词。

OpenNLP: foreign names does not get recognized

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21569597

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档