对于下面的场景,有什么示例、提示或指导吗?
我已经从几个不同的新闻网站检索到了更新。然后,我分析这些信息,以预测当前世界的趋势。
在搜索上面的想法时,我只能找到关于数据挖掘的信息,但它是针对数据库系统的。虽然数据挖掘与我正在尝试做的事情相似,但数据库信息中的数据挖掘比我从网站上检索到的信息更具体。那么有没有人能在这方面给我指点一下?我真的很感谢你在这件事上能提供的任何帮助。
谢谢。
发布于 2009-11-29 06:43:31
首先,你需要一些过去的训练数据。意思是,收集旧的新闻和状态的趋势来分析不同的时间点。
然后,您必须决定如何量化这些信息。如果趋势类似于“手机销量”,你可以只计算手机销量。这些消息更难量化。例如,您可以测量训练新闻中的词频,并将n个最不频繁的单词作为特征(类似于垃圾邮件过滤器)。
在此之后,您将根据这些过去的特征和趋势训练分类器。一个很好的算法是“随机森林”算法,因为它实际上是无参数的。
您将需要大量的背景知识才能实际实施此计划。哈斯蒂、提布希拉尼和弗里德曼合著的“统计学习的要素”是一本值得学习的好书。它可以在作者的主页上免费下载。
发布于 2009-11-29 06:49:53
如果你正在寻找数据提取算法,你应该看看聚类分析和“非负矩阵分解”。
你可以用它来提取一般的主题。从中获得当前的趋势是相对容易的。
但是,其他主题中的哪个(如果有的话)将获得下一个趋势,则需要使用魔术或神经网络。
https://stackoverflow.com/questions/1813913
复制相似问题