我有一份来自彭博、MarketWatch、CNN等金融网站的新闻文章列表。我想根据这些文章的财务相关性对它们进行分类,以了解是否涉及到任何金融危机或危机。
我用Python开发了一个使用NLTK的程序,它根据每一篇文章的财务相关性给出分数。
目前,我正在使用一个关键字列表/词典,如:
检查这个列表中有多少单词出现在新闻文章中,并为每个单词保持一个分数,然后把所有的单词加起来,得到一个整体的分数。
同样,我也有金融词组的清单/词汇:
从这个列表和上面的列表中添加分数,然后将一个整体的分数分配给一篇文章,这是它的相关性的一个指标。
我想把机器学习纳入这一过程,并希望从上述方法中获取已经分类的新闻文章作为培训集。
请帮助找到实现这一目标的最佳算法。
发布于 2014-08-27 12:32:32
这是一个分类机器学习问题,Logistic回归可以做到这一点:
Logistic回归维基百科
https://stackoverflow.com/questions/25523628
复制相似问题