首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何通过python中的feedparser收集所有提要?

如何通过python中的feedparser收集所有提要?
EN

Stack Overflow用户
提问于 2016-06-20 15:54:55
回答 2查看 1.6K关注 0票数 4

我正在尝试使用feedparser从reuters.com获取RSS feed。我访问了链接http://in.reuters.com/tools/rss以获取visited的链接,例如http://feeds.reuters.com/reuters/INtopNews。当我使用feedparser在python中实现代码时,我只收到了大约10篇帖子,如下所示:

代码语言:javascript
复制
import feedparser

feeds = feedparser.parse('http://feeds.reuters.com/Reuters/worldNews')

for feed in feeds['entries']:
    print(feed['title'])

但如果我在www.feedreader.com上看到同样的链接,当我附加一个链接并向下滚动时,我可以找到更多的帖子。我如何在python的feedparser中获得所有这些RSS帖子?

EN

回答 2

Stack Overflow用户

发布于 2018-05-22 05:43:22

你只能从路透社提要中获得10个项目的原因是因为这是提要包含的全部内容。大多数RSS提要只有最近的项目,而不是所有的项目都回到过去。feedparser库读取提要中的当前内容。

代码示例中的路透社提要包含10个项目。

当RSS阅读器(如Feedreader )在您向下滚动时显示的项目比这多时,这是因为阅读器保存了不再存在于提要中的旧项目。基于web的RSS阅读器以这种方式归档项目是很典型的。

票数 3
EN

Stack Overflow用户

发布于 2020-12-27 18:20:07

正如rcade提到的,大多数RSS提要只涵盖最新的项目,但是可以每天(甚至每小时)收集并使用它。如果你想做类似的事情,你可以从这里使用Python rssarchive库:https://pypi.org/project/rssarchive/

代码语言:javascript
复制
#!/usr/bin/env python
import rssarchive as ra
newra  = ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE = False)
newra.batch_save_rss()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37917208

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档