我想根据它属于的类别来标记文本..。
例如..。
“离合器和齿轮采用微芯片”->离合器/mechanical,齿轮/机械,微芯片/电子。
“用于监测氢水平的软件”->软件/计算机、氢/化学。
如何使用openNLP或其他NLP引擎完成此操作。
我的作品
我尝试了NER模型,但它需要大量的训练语料库,而我没有?
我的需要
是否有现成的培训语料库可供导航或分类使用(它必须包含科学和工程词汇)。?
发布于 2014-02-05 13:34:51
如果要为整个句子创建一组类标签,则需要使用Doccat。使用Doccat,您将得到每个文本块的prob分布。使用doccat,您的样本将生成如下内容:
离合器和齿轮用微芯片“->机械0.85847568,电子0.374658”进行监测。
使用doocat,您将失去关键字-> cut标签映射,因此如果您真的需要它,doccat可能不会剪掉它。
至于NER,OpenNLP有一个名为Modelbuilder的插件,它可能对您有帮助。它的设计目的是加速建立新的模型。您可以为每个类别创建一个文件/列表,尽可能多地列出每个类别的术语,然后创建一组句子的文件,然后使用addon创建一个使用种子术语和句子文件的NER模型。请参阅我之前用代码示例描述的这篇文章。你必须从SVN中删除这个副词。
https://stackoverflow.com/questions/21569597
复制相似问题