我正在进行网上新闻分类。这个想法是为了识别同一主题的一组新闻。我的算法有以下步骤:
1)我浏览了一组来自新闻网站的提要,并识别新闻链接。
2)对于每个新链接,我使用拖网提取内容,然后标记它。
( 3)利用sklearn的TfidfVectorizer,找到了所有旧新闻和最后一个新闻的向量表示。
4)在数据集中找到最近的邻域,计算出与上一次新闻向量表示和旧新闻的所有向量表示的欧几里德距离。
我在使用TfidfVectorizer时遇到了问题,因为它更重视只出现在少数新闻中的特殊词汇,比如苹果,而谈论Aple的新闻即使在处理不同的主题时也会被聚在一起。
那么,是否有一种比我现在使用的方法更有效的方法呢?
发布于 2018-04-04 05:14:41
通常的规则是每个帖子只问一个问题。我会回答你的第一个问题。
提前造一本字典。只要付出一点努力,你就可以构建一本字典,其中包含了将来可能出现的所有单词。拿过去一年的所有新闻文章,或者维基百科的所有文章,或者其他一些非常大的收藏来看,它很可能包含了你需要的所有单词;你遗漏一些重要词的可能性很低。现在,每次你看到一篇文章,就扔掉字典里没有的单词。这样,您就不需要一次又一次地对旧消息进行矢量化;您可以做到一次又一次。这应该能改善业绩。
另一个变化是:如果你在某一天看到一个新单词,你可以将这个词添加到字典中;在一天结束时,你看到的每一件事都可以重新标记出来。
发布于 2018-06-18 15:34:08
我们在金融新闻分类方面做了一些类似的事情,我怀疑这与你想要做的类似,我们在使用完全自动分类时遇到的问题是,你必须考虑一些规则,比如有两个特易购的-the英国超级市场链和一家位于美国的拖拉机公司。
相反,我们建立了基于Tf-以色列国防军结果的字典,我们将遵循规则,即Apple -pie。
希望这有帮助
https://datascience.stackexchange.com/questions/29869
复制相似问题