首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用magpie和cron作业的rss到sql

使用magpie和cron作业的rss到sql
EN

Stack Overflow用户
提问于 2010-08-15 08:59:56
回答 2查看 599关注 0票数 0

基本上,我希望我的网站聚合了大量的rss提要,并将它们存储在数据库中的cron作业。虽然我担心在运行arrays...everything作业时会出现重复问题,但我还是使用了magpie将rss解析成cron。

避免重复条目的最佳解决方案是什么……这是我的理论,尽管我不认为它是有效的。

cron作业理论

1)使用magpie解析rss feed 2)创建链接的md5散列3)测试数据库表中是否存在md5 ...如果不是..。插入..如果存在,则忽略或更新

让我知道有没有更有效的方法

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-08-15 18:40:41

链接可能还不够,因为文章在几个网站上是重复的。我曾经做过一个系统,从许多报纸上收集文章,同一篇文章可以出现在多个来源。此外,一个网站可能会在多个URL上发布同一篇文章,例如,当一篇文章在多个类别中呈现时。

如果你真的想确定一篇文章不是重复的,可以根据它来比较文章的内容或哈希代码。

票数 1
EN

Stack Overflow用户

发布于 2010-08-15 09:03:32

既然您担心复制问题,那么它将如何结束复制呢?如果它是在几个不同的网站上找到的,我想更好的想法是找到文章第一句话的MD5或其他东西。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3485778

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档