文章/答案/技术大牛

发布

社区首页 >问答首页 >python数据挖掘

问python数据挖掘
EN

Stack Overflow用户

提问于 2011-04-04 15:21:38

回答 3查看 1.3K关注 0票数 3

我对数据挖掘并不感兴趣，但我需要一些关于聚类的想法。让我先描述一下我的问题。

我有大约100份包含用户评论的数据表。我正在尝试为实例寻找描述质量的单词。有人可以说这是惊人的质量，另一个人可以说非常好的质量，现在我必须对描述这些相似句子的文档进行聚类，并获得这些句子的频率。在这里应用什么概念？

我想我必须指定一些停用的单词和同义词。我对这个概念不是很熟悉。

有人能给我一些详细的链接或解释吗？使用什么工具？我基本上是一个python程序员，所以任何python模块都会很感激。

谢谢

python

nlp

data-mining

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-04-04 15:31:37

有用于语言处理的http://www.nltk.org/。有了这个库，你可以将文本拆分成句子，计算词频，查找同义词等。

Carrot^2是一个用于聚类文本片段的很好的开源项目，不幸的是它是用Java语言编写的。其聚类背后的想法是术语和短语(二元语法和三元语法)频率。在预处理之后，每个文档(片段、评论)被表示为术语/短语频率的向量。为了计算集群，他们使用一些线性代数，并在该术语空间中找到主成分。然后，这些组件被用来为它们形成集群和标签。

在你的情况下，值得将评论视为文档，对它们进行聚类，并获得聚类的标签。也许标签会以某种方式评估评论。

在您的特定情况下，有必要删除感兴趣的单词，以便显著降低维度，这在此类任务中非常关键

另一个有用的项目- montylingua

票数 4

Stack Overflow用户

发布于 2011-04-04 18:55:21

我将遵循this question on CrossValidated的主要建议。特别是，看看scikit-learn。

票数 4

Stack Overflow用户

发布于 2011-04-04 15:43:16

这里有两篇从评价性文本中提取信息的论文。看起来他们在做你想做的事情。

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.91.9534

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.77.5392&rep=rep1&type=pdf

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5535623

复制

相似问题

问python数据挖掘
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python数据挖掘EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python数据挖掘
EN