首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >向NLTK信息抽取器添加自定义标签

向NLTK信息抽取器添加自定义标签
EN

Data Science用户
提问于 2015-05-07 21:53:32
回答 1查看 4.4K关注 0票数 5

我正在开发一个信息抽取器,专门用于解析电影、导演和演员等实体之间的关系。NLTK似乎为建立这样一个系统提供了必要的工具。然而,还不清楚如何添加自定义标签(例如演员、导演、电影标题)。

类似地,NLTK书第7章讨论使用命名实体识别器进行信息提取,但它掩盖了标记细节。

所以,我有两个问题:

如何添加自定义标签?如果我有相关命名实体(如电影、演员等)的裸露列表,我如何将它们作为特征来包含?看来我需要使用IOB格式,但是当我只有命名实体的列表时,我不确定如何做到这一点。

EN

回答 1

Data Science用户

发布于 2019-02-01 18:38:56

很多关键字提取技术都取决于以下因素:

文本的语法性质。文本的长度是在寻找单个关键字或短语关键字等等。但通常,如果您有长文本,并且希望从中自动提取关键字,我建议您阅读以下文章:

  1. TextRank
  2. 快速自动关键词提取
  3. 托皮卡

另外,要提取没有经过上述技术的自定义(特殊)关键字,请查看这个职位

票数 -1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/5718

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档