首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何对相似新闻进行分组

如何对相似新闻进行分组
EN

Stack Overflow用户
提问于 2009-03-02 17:21:20
回答 3查看 563关注 0票数 2

我正在尝试建立一个rss-新闻获取服务器,以收集关于一个主题的几个网站的所有新闻。通常,这些网站有类似的新闻和几乎相同的信息。怎么可能对这样的新闻进行分组。例如,显示第一个链接,然后显示其他链接的摘要?

有谁有这方面的经验吗?

EN

回答 3

Stack Overflow用户

发布于 2009-03-02 17:25:27

查找关键字(例如,将描述拆分成单词并删除100个左右最常见的单词中的任何一个),然后通过这些关键字的共现将它们组合在一起。通常,只看最长的单词会给你一个很好的快速近似值。

换句话说,如果您有一个带有“主题组”的表,则可以在每个项目进入时将其分配到新的或现有的主题组。首先,查看是否有任何现有的主题组与新项目共享足够的关键字;如果有,则将其放在那里。如果没有,则使用其关键字创建一个新的主题组,并将其添加为该主题组的第一个成员。

-- MarkusQ

票数 3
EN

Stack Overflow用户

发布于 2011-05-28 06:07:41

我认为这叫做集群:

  • k-means clustering
  • hierarchical clustering

我只是查找相关的问题并找到this better answer

票数 1
EN

Stack Overflow用户

发布于 2011-09-22 09:37:08

最好是在比较文章的“语义签名或语义DNA”时完成。这意味着您需要首先进行自然语言处理。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/603159

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档