文章/答案/技术大牛

发布

社区首页 >问答首页 >使用PHP智能检测重复内容

问使用PHP智能检测重复内容
EN

Stack Overflow用户

提问于 2013-09-12 02:01:21

回答 1查看 202关注 0票数 2

我已经建立了一个网页刮刀，采取一个网站或RSS提要，分析所述内容的提要和或网站，提取所有适当的信息，然后保存到一个数据库。这是一个个人实验，目的是看看我是否能够建立一个智能的、匿名的网络刮板，没有真正的目的，只是为了看看我能走多高，然后我将开放源代码供其他人学习。

问题是我目前正在抓取三个新闻网站。说到突发新闻，很有可能所有三个网站(特别是如果这是个大新闻)都会对新闻做出自己的解释，但最终都是相同的新闻。

我一直在努力想出一个解决方案，当一篇文章已经被提到并从另一个新闻网站导入时，这个解决方案可以尽可能地检测到(其他网站也写过这篇文章: link1，link2)。

是否有一种经过试验和测试的方法来检测一个或多个内容是否有效地相同？我编写了一些伪代码，但不幸的是，我并不是一个非常聪明的开发人员，可以利用它并使其工作起来。

以下是我的想法：

解析到网站的链接。
通用词被去掉，关键字留在(公司名称、国家等)中。
然后计算剩下的单词并计算分数。

这就是我的想法遇到障碍的地方。如何有效地创建页面快照，然后将其与我已经导入的数据库中的现有内容进行比较？我认为这是需要这样做的。

也许我想得太多了，我只需要检查一下文章是否有类似的标题？

php

string

algorithm

web-scraping

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-09-12 09:43:03

我的方法是分析单个网站的单个报废结果，省略证书和其他常见的项目。

现在。在其余的文章中，如何创建每个新故事的概要分析？我们可以通过对单个故事中的术语加权优先级来做到这一点，如何做到？就像给非字典术语(即公司名称、个人名称)赋予权重一样，赋予城市名称、区域的权重。这些非字典术语相互匹配，技术术语也是如此。

我的经验说，匹配这样的非字典术语将解决至少50%的你的问题，再加上它的所有关于建立一个个人资料。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18754146

复制

相似问题

问使用PHP智能检测重复内容
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用PHP智能检测重复内容EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用PHP智能检测重复内容
EN