文章/答案/技术大牛

发布

社区首页 >问答首页 >识别课文中的重要词和短语

问识别课文中的重要词和短语
EN

Stack Overflow用户

提问于 2011-10-06 16:06:44

回答 1查看 5K关注 0票数 6

我把文本存储在python字符串中。

我想要什么

以识别文本中的关键词。
在文本中识别N-克(理想情况下不仅仅是bi和tri )。

记住..。

文本可能很小(例如，tweet大小)
文本可能是中间的(例如，新闻文章大小)
文本可能很大(例如，书籍或章节大小)

我有什么

我已经在使用nltk将语料库分解成标记并删除停止词：

    # split across any non-word character
    tokenizer = nltk.tokenize.RegexpTokenizer('[^\w\']+', gaps=True)

    # tokenize
    tokens = tokenizer.tokenize(text)

    # remove stopwords
    tokens = [w for w in tokens if not w in nltk.corpus.stopwords.words('english')]

我知道BigramCollocationFinder和TrigramCollectionFinder为这两种情况所做的正是我想要的。

问题

我需要更高级别的n克建议，改进来自BCF和TCF的结果种类，并就识别最独特的个人关键词的最佳方法提供建议。

非常感谢！

python

nlp

nltk

回答 1

Stack Overflow用户

发布于 2011-10-06 16:33:54

对于识别最独特的个别关键词的最佳方法，tfidf是总的衡量标准。因此，您必须以某种方式集成一个搜索引擎(或制作一个简单的自定义倒排索引，该索引是动态的，并保存术语频率、文档频率)，以便高效、快速地计算tfidf。

至于您的N-克，为什么不使用“窗口”方法(窗口长度为N)创建一个自定义解析器，以标识其中最常见的解析器？(只需将每个N克作为字典中的一个键，其值为频率或分数(基于单个术语的tfidf ))。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7677201

复制

相似问题

问识别课文中的重要词和短语
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问识别课文中的重要词和短语EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问识别课文中的重要词和短语
EN