文章/答案/技术大牛

发布

社区首页 >问答首页 >带有附加类的stanford分类

问带有附加类的stanford分类
EN

Stack Overflow用户

提问于 2014-11-10 06:02:55

回答 3查看 607关注 0票数 0

目前斯坦福纳主要提供6类LOCATION, TIME, PERSON' ORGANIZATION' MONEY' PERCENT' DATE，此外，它还接受了英语数据的培训，因此无法对印度实体进行分类。

是否可以使用额外的类来训练分类器，从而也可以将NE识别为product, month, disease, device等。

此外，它也不对印度实体进行分类，因此，如果可能的话，也可以增加对这类非英语课程的支持。

是否有可能对分类器、标记器进行再培训以获得这种额外的支持？

machine-learning

nlp

classification

stanford-nlp

回答 3

Stack Overflow用户

回答已采纳

发布于 2014-11-11 19:18:02

与其他课程相比，训练模型的主要问题是训练数据。

模型需要高精度的训练数据，如I brought a <START:product> Mac Book Pro <END> in September and synced it with my <START:device> IPhone <END>.，观察到Iphone可以用设备或产品进行注释。

如果你能生成或注释至少15,000个句子，加上你想要识别的类，这是不容易的，你是好的。

斯坦福NER模型或OpenNLP NER模型不识别印度名字，因为这些模型是在华尔街日报的文章中接受培训的，而且它们并不代表许多名字。

票数 1

Stack Overflow用户

发布于 2014-12-10 23:37:56

对印度实体而言，一种可能性是，斯坦福人往往乐于在分类器中添加外部培训数据，如果数据格式良好的话。例如，目前的三种英语模式中有两种在"Vihari昨天回答了我的问题“这句话中不认识"Vihari”。如果您编译了这样的句子列表并将它们发送到java support@lists.stanford.edu，它们最终将进入未来的模型。

您必须自己为产品、设备等其他类贴上大量的数据标签，这是一个相当耗时的任务。如果你能节省预算的话，亚马逊的机械土耳其可能是有用的。

票数 3

Stack Overflow用户

发布于 2014-12-14 15:24:28

此外，它也不对印度实体进行分类，因此，如果可能的话，也可以增加对这类非英语课程的支持。

“印度语”是指印地语吗？Stanford和Apache OpenNLP都没有为印地语提供命名实体模型，但是盖特支持基本的印地语命名实体识别：https://gate.ac.uk/sale/tao/splitch15.html#x20-41300015.7。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26837718

复制

相似问题

问带有附加类的stanford分类
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问带有附加类的stanford分类EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问带有附加类的stanford分类
EN