首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >识别课文中的重要词和短语

识别课文中的重要词和短语
EN

Stack Overflow用户
提问于 2011-10-06 16:06:44
回答 1查看 5K关注 0票数 6

我把文本存储在python字符串中。

我想要什么

  1. 以识别文本中的关键词。
  2. 在文本中识别N-克(理想情况下不仅仅是bi和tri )。

记住..。

  • 文本可能很小(例如,tweet大小)
  • 文本可能是中间的(例如,新闻文章大小)
  • 文本可能很大(例如,书籍或章节大小)

我有什么

我已经在使用nltk将语料库分解成标记并删除停止词:

代码语言:javascript
复制
    # split across any non-word character
    tokenizer = nltk.tokenize.RegexpTokenizer('[^\w\']+', gaps=True)

    # tokenize
    tokens = tokenizer.tokenize(text)

    # remove stopwords
    tokens = [w for w in tokens if not w in nltk.corpus.stopwords.words('english')]

我知道BigramCollocationFinder和TrigramCollectionFinder为这两种情况所做的正是我想要的。

问题

我需要更高级别的n克建议,改进来自BCF和TCF的结果种类,并就识别最独特的个人关键词的最佳方法提供建议。

非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2011-10-06 16:33:54

对于识别最独特的个别关键词的最佳方法,tfidf是总的衡量标准。因此,您必须以某种方式集成一个搜索引擎(或制作一个简单的自定义倒排索引,该索引是动态的,并保存术语频率、文档频率),以便高效、快速地计算tfidf。

至于您的N-克,为什么不使用“窗口”方法(窗口长度为N)创建一个自定义解析器,以标识其中最常见的解析器?(只需将每个N克作为字典中的一个键,其值为频率或分数(基于单个术语的tfidf ))。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7677201

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档