我正在开发一个信息抽取器,专门用于解析电影、导演和演员等实体之间的关系。NLTK似乎为建立这样一个系统提供了必要的工具。然而,还不清楚如何添加自定义标签(例如演员、导演、电影标题)。
类似地,NLTK书第7章讨论使用命名实体识别器进行信息提取,但它掩盖了标记细节。
所以,我有两个问题:
如何添加自定义标签?如果我有相关命名实体(如电影、演员等)的裸露列表,我如何将它们作为特征来包含?看来我需要使用IOB格式,但是当我只有命名实体的列表时,我不确定如何做到这一点。
https://datascience.stackexchange.com/questions/5718
复制相似问题