目前斯坦福纳主要提供6类LOCATION, TIME, PERSON' ORGANIZATION' MONEY' PERCENT' DATE,此外,它还接受了英语数据的培训,因此无法对印度实体进行分类。
是否可以使用额外的类来训练分类器,从而也可以将NE识别为product, month, disease, device等。
此外,它也不对印度实体进行分类,因此,如果可能的话,也可以增加对这类非英语课程的支持。
是否有可能对分类器、标记器进行再培训以获得这种额外的支持?
发布于 2014-11-11 19:18:02
与其他课程相比,训练模型的主要问题是训练数据。
模型需要高精度的训练数据,如I brought a <START:product> Mac Book Pro <END> in September and synced it with my <START:device> IPhone <END>.,观察到Iphone可以用设备或产品进行注释。
如果你能生成或注释至少15,000个句子,加上你想要识别的类,这是不容易的,你是好的。
斯坦福NER模型或OpenNLP NER模型不识别印度名字,因为这些模型是在华尔街日报的文章中接受培训的,而且它们并不代表许多名字。
发布于 2014-12-10 23:37:56
对印度实体而言,一种可能性是,斯坦福人往往乐于在分类器中添加外部培训数据,如果数据格式良好的话。例如,目前的三种英语模式中有两种在"Vihari昨天回答了我的问题“这句话中不认识"Vihari”。如果您编译了这样的句子列表并将它们发送到java support@lists.stanford.edu,它们最终将进入未来的模型。
您必须自己为产品、设备等其他类贴上大量的数据标签,这是一个相当耗时的任务。如果你能节省预算的话,亚马逊的机械土耳其可能是有用的。
发布于 2014-12-14 15:24:28
此外,它也不对印度实体进行分类,因此,如果可能的话,也可以增加对这类非英语课程的支持。
“印度语”是指印地语吗?Stanford和Apache OpenNLP都没有为印地语提供命名实体模型,但是盖特支持基本的印地语命名实体识别:https://gate.ac.uk/sale/tao/splitch15.html#x20-41300015.7。
https://stackoverflow.com/questions/26837718
复制相似问题