首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从rss抓取新闻网站

从rss抓取新闻网站
EN

Stack Overflow用户
提问于 2017-07-24 10:36:08
回答 1查看 1.2K关注 0票数 0

我想看一些新闻网站,比如nytimes.com rss:

代码语言:javascript
复制
<item>
    <title>
        White House Signals Acceptance of Russia Sanctions Bill
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/us/politics/trump-russia-
        sanctions.html?partner=rss&emc=rss
    </link>
    <pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate>
</item>
<item>
    <title>
        News Analysis: For Trump and Putin, Sanctions Are a Setback 
        Both Sought to Avoid
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/world/europe/trump-putin-
        sanctions-hacking.html?partner=rss&emc=rss
    </link>
    <pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate>
</item>

找到新的项目,我还没有读过,并为每个项目存储链接,标题和获取链接,以抓取它的一些内容。我的问题是,我是否可以为此目的使用刮痕,如果是,如何使用?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-24 10:50:35

是的,你可以用Scrapy来达到这个目的。有几件事你可以用来构建你的解决方案:

  • 从设计用于解析XML的XMLFeedSpider开始。在提供的链接中有一个简单的例子。
  • 要遵循指向单个文章的链接,从其中提取一些数据并将其添加到从XML提取的数据中,请使用请求链接的概念。
  • 您没有指定应该如何实现我尚未阅读的项目。如果您的意思是不返回在以前的运行中已经刮过的项,则可以使用scrapy-deltafetch包。

现在你只需要把这些碎片放在一起。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45278343

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档