我正在使用StanfordNER分类器。有4个分类器
english.all.3class.distsim.crf.ser.gz
english.muc.7class.distsim.crf.ser.gz
english.conll.4class.distsim.crf.ser.gz
example.serialized.ncc.ncc.ser.gz这些分类器是如何建立的?因为它们都是基于不同的语料库,所以我猜
SVM和OVR (用于多标签案例),以检测ORGANIZATION、PERSON、LOCATION等实体,这意味着训练数据将是语料库中文档的完整文本。对于该文本,我们显式地表示了ORGANIZATIONs、PERSONs和LOCATIONs,这样分类器就能够预测这些实体。ORGANIZATION、PERSON、LOCATION等实体连接起来。例如,可以训练一个量词来预测哪些专有名词应该是ORGANIZATION。这是正确的大局吗?我只是想找出如何建立我自己的能力。
发布于 2016-01-22 16:39:09
是的,这些模型是关于监督数据的。它们是一阶CRF,可以进行多类概率序列分类(所以不是OVR,不是SVM)。您可以在斯坦福大学网页上找到关于NER和斯坦福NER的介绍。
https://stackoverflow.com/questions/34949472
复制相似问题