我正在寻找一个简单但“足够好”的java命名实体识别库(和字典),我希望处理电子邮件和文档,并提取一些“基本信息”,如:姓名,地点,地址和日期。
我一直在四处寻找,大多数似乎都是重的和完整的NLP类的项目。
有什么建议吗?
发布于 2008-12-23 21:15:22
顺便说一句,我最近遇到了OpenCalais,它似乎有我想要的功能。
发布于 2008-10-09 19:28:34
你可能想看看类似问题的my earlier answers中的一个。
除此之外,大多数轻量级系统在很大程度上依赖于所使用的域。例如,你会找到一大堆关于生物医学NER系统的工具和论文。除了我之前的帖子(如果你想做NER,它已经包含了我的主要建议),这里还有一些你可能想要研究的工具:
如果您对这个特定的Stanford CER-NER
另请注意:如果不对输入进行标记化,您将无法脱颖而出。自然语言的标记化是微不足道的,这就是为什么我建议你使用一个工具箱,为你做这两件事。
发布于 2011-04-28 04:42:33
您可能也想尝试一下Alchemy API。它类似于Open Calais。
https://stackoverflow.com/questions/188176
复制相似问题