我正在尝试建立一个rss-新闻获取服务器,以收集关于一个主题的几个网站的所有新闻。通常,这些网站有类似的新闻和几乎相同的信息。怎么可能对这样的新闻进行分组。例如,显示第一个链接,然后显示其他链接的摘要?
有谁有这方面的经验吗?
发布于 2009-03-02 17:25:27
查找关键字(例如,将描述拆分成单词并删除100个左右最常见的单词中的任何一个),然后通过这些关键字的共现将它们组合在一起。通常,只看最长的单词会给你一个很好的快速近似值。
换句话说,如果您有一个带有“主题组”的表,则可以在每个项目进入时将其分配到新的或现有的主题组。首先,查看是否有任何现有的主题组与新项目共享足够的关键字;如果有,则将其放在那里。如果没有,则使用其关键字创建一个新的主题组,并将其添加为该主题组的第一个成员。
-- MarkusQ
发布于 2011-05-28 06:07:41
发布于 2011-09-22 09:37:08
最好是在比较文章的“语义签名或语义DNA”时完成。这意味着您需要首先进行自然语言处理。
https://stackoverflow.com/questions/603159
复制相似问题