基本上,我希望我的网站聚合了大量的rss提要,并将它们存储在数据库中的cron作业。虽然我担心在运行arrays...everything作业时会出现重复问题,但我还是使用了magpie将rss解析成cron。
避免重复条目的最佳解决方案是什么……这是我的理论,尽管我不认为它是有效的。
cron作业理论
1)使用magpie解析rss feed 2)创建链接的md5散列3)测试数据库表中是否存在md5 ...如果不是..。插入..如果存在,则忽略或更新
让我知道有没有更有效的方法
发布于 2010-08-15 18:40:41
链接可能还不够,因为文章在几个网站上是重复的。我曾经做过一个系统,从许多报纸上收集文章,同一篇文章可以出现在多个来源。此外,一个网站可能会在多个URL上发布同一篇文章,例如,当一篇文章在多个类别中呈现时。
如果你真的想确定一篇文章不是重复的,可以根据它来比较文章的内容或哈希代码。
发布于 2010-08-15 09:03:32
既然您担心复制问题,那么它将如何结束复制呢?如果它是在几个不同的网站上找到的,我想更好的想法是找到文章第一句话的MD5或其他东西。
https://stackoverflow.com/questions/3485778
复制相似问题