我正在尝试使用feedparser从reuters.com获取RSS feed。我访问了链接http://in.reuters.com/tools/rss以获取visited的链接,例如http://feeds.reuters.com/reuters/INtopNews。当我使用feedparser在python中实现代码时,我只收到了大约10篇帖子,如下所示:
import feedparser
feeds = feedparser.parse('http://feeds.reuters.com/Reuters/worldNews')
for feed in feeds['entries']:
print(feed['title'])但如果我在www.feedreader.com上看到同样的链接,当我附加一个链接并向下滚动时,我可以找到更多的帖子。我如何在python的feedparser中获得所有这些RSS帖子?
发布于 2018-05-22 05:43:22
你只能从路透社提要中获得10个项目的原因是因为这是提要包含的全部内容。大多数RSS提要只有最近的项目,而不是所有的项目都回到过去。feedparser库读取提要中的当前内容。
代码示例中的路透社提要包含10个项目。
当RSS阅读器(如Feedreader )在您向下滚动时显示的项目比这多时,这是因为阅读器保存了不再存在于提要中的旧项目。基于web的RSS阅读器以这种方式归档项目是很典型的。
发布于 2020-12-27 18:20:07
正如rcade提到的,大多数RSS提要只涵盖最新的项目,但是可以每天(甚至每小时)收集并使用它。如果你想做类似的事情,你可以从这里使用Python rssarchive库:https://pypi.org/project/rssarchive/
#!/usr/bin/env python
import rssarchive as ra
newra = ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE = False)
newra.batch_save_rss()https://stackoverflow.com/questions/37917208
复制相似问题