首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >python数据挖掘

python数据挖掘
EN

Stack Overflow用户
提问于 2011-04-04 15:21:38
回答 3查看 1.3K关注 0票数 3

我对数据挖掘并不感兴趣,但我需要一些关于聚类的想法。让我先描述一下我的问题。

我有大约100份包含用户评论的数据表。我正在尝试为实例寻找描述质量的单词。有人可以说这是惊人的质量,另一个人可以说非常好的质量,现在我必须对描述这些相似句子的文档进行聚类,并获得这些句子的频率。在这里应用什么概念?

我想我必须指定一些停用的单词和同义词。我对这个概念不是很熟悉。

有人能给我一些详细的链接或解释吗?使用什么工具?我基本上是一个python程序员,所以任何python模块都会很感激。

谢谢

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-04-04 15:31:37

有用于语言处理的http://www.nltk.org/。有了这个库,你可以将文本拆分成句子,计算词频,查找同义词等。

Carrot^2是一个用于聚类文本片段的很好的开源项目,不幸的是它是用Java语言编写的。其聚类背后的想法是术语和短语(二元语法和三元语法)频率。在预处理之后,每个文档(片段、评论)被表示为术语/短语频率的向量。为了计算集群,他们使用一些线性代数,并在该术语空间中找到主成分。然后,这些组件被用来为它们形成集群和标签。

在你的情况下,值得将评论视为文档,对它们进行聚类,并获得聚类的标签。也许标签会以某种方式评估评论。

在您的特定情况下,有必要删除感兴趣的单词,以便显著降低维度,这在此类任务中非常关键

另一个有用的项目- montylingua

票数 4
EN

Stack Overflow用户

发布于 2011-04-04 18:55:21

我将遵循this question on CrossValidated的主要建议。特别是,看看scikit-learn

票数 4
EN

Stack Overflow用户

发布于 2011-04-04 15:43:16

这里有两篇从评价性文本中提取信息的论文。看起来他们在做你想做的事情。

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.91.9534

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.77.5392&rep=rep1&type=pdf

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5535623

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档