我已经建立了一个网页刮刀,采取一个网站或RSS提要,分析所述内容的提要和或网站,提取所有适当的信息,然后保存到一个数据库。这是一个个人实验,目的是看看我是否能够建立一个智能的、匿名的网络刮板,没有真正的目的,只是为了看看我能走多高,然后我将开放源代码供其他人学习。
问题是我目前正在抓取三个新闻网站。说到突发新闻,很有可能所有三个网站(特别是如果这是个大新闻)都会对新闻做出自己的解释,但最终都是相同的新闻。
我一直在努力想出一个解决方案,当一篇文章已经被提到并从另一个新闻网站导入时,这个解决方案可以尽可能地检测到(其他网站也写过这篇文章: link1,link2)。
是否有一种经过试验和测试的方法来检测一个或多个内容是否有效地相同?我编写了一些伪代码,但不幸的是,我并不是一个非常聪明的开发人员,可以利用它并使其工作起来。
以下是我的想法:
这就是我的想法遇到障碍的地方。如何有效地创建页面快照,然后将其与我已经导入的数据库中的现有内容进行比较?我认为这是需要这样做的。
也许我想得太多了,我只需要检查一下文章是否有类似的标题?
发布于 2013-09-12 09:43:03
我的方法是分析单个网站的单个报废结果,省略证书和其他常见的项目。
现在。在其余的文章中,如何创建每个新故事的概要分析?我们可以通过对单个故事中的术语加权优先级来做到这一点,如何做到?就像给非字典术语(即公司名称、个人名称)赋予权重一样,赋予城市名称、区域的权重。这些非字典术语相互匹配,技术术语也是如此。
我的经验说,匹配这样的非字典术语将解决至少50%的你的问题,再加上它的所有关于建立一个个人资料。
https://stackoverflow.com/questions/18754146
复制相似问题