首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >信息挖掘、分类、修改

信息挖掘、分类、修改
EN

Stack Overflow用户
提问于 2009-11-29 06:03:29
回答 2查看 246关注 0票数 1

对于下面的场景,有什么示例、提示或指导吗?

我已经从几个不同的新闻网站检索到了更新。然后,我分析这些信息,以预测当前世界的趋势。

在搜索上面的想法时,我只能找到关于数据挖掘的信息,但它是针对数据库系统的。虽然数据挖掘与我正在尝试做的事情相似,但数据库信息中的数据挖掘比我从网站上检索到的信息更具体。那么有没有人能在这方面给我指点一下?我真的很感谢你在这件事上能提供的任何帮助。

谢谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-11-29 06:43:31

首先,你需要一些过去的训练数据。意思是,收集旧的新闻和状态的趋势来分析不同的时间点。

然后,您必须决定如何量化这些信息。如果趋势类似于“手机销量”,你可以只计算手机销量。这些消息更难量化。例如,您可以测量训练新闻中的词频,并将n个最不频繁的单词作为特征(类似于垃圾邮件过滤器)。

在此之后,您将根据这些过去的特征和趋势训练分类器。一个很好的算法是“随机森林”算法,因为它实际上是无参数的。

您将需要大量的背景知识才能实际实施此计划。哈斯蒂、提布希拉尼和弗里德曼合著的“统计学习的要素”是一本值得学习的好书。它可以在作者的主页上免费下载。

票数 0
EN

Stack Overflow用户

发布于 2009-11-29 06:49:53

如果你正在寻找数据提取算法,你应该看看聚类分析和“非负矩阵分解”。

你可以用它来提取一般的主题。从中获得当前的趋势是相对容易的。

但是,其他主题中的哪个(如果有的话)将获得下一个趋势,则需要使用魔术或神经网络。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1813913

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档