我一直在尝试使用NLTK的NER功能。我想从文章中提取这些实体。我知道这样做不可能十全十美,但我不知道在这两者之间是否有人为干预来手动标记其他人,这会不会有所改善?
如果是的话,在NLTK现有的模型中是否有可能持续地训练这个模型。(半监督训练)
发布于 2015-02-10 17:18:54
nltk中提供的普通香草块内部使用在ACE语料库上训练的最大熵块。因此,不可能识别日期或时间,除非您使用自己的分类器和数据进行培训(这是一项相当细致的工作)。
您可以引用这个链接来执行相同的操作。
另外,有一个名为蒂梅克斯的nltk_contrib模块,它可以帮助您满足您的需求。
如果您有兴趣在Java中执行同样的操作--更好地了解斯坦福大学SUTime,那么它是斯坦福CoreNLP的一部分。
https://stackoverflow.com/questions/24392268
复制相似问题