文章/答案/技术大牛

发布

问从rss抓取新闻网站
EN

Stack Overflow用户

提问于 2017-07-24 10:36:08

回答 1查看 1.2K关注 0票数 0

我想看一些新闻网站，比如nytimes.com rss：

<item>
    <title>
        White House Signals Acceptance of Russia Sanctions Bill
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/us/politics/trump-russia-
        sanctions.html?partner=rss&emc=rss
    </link>
    <pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate>
</item>
<item>
    <title>
        News Analysis: For Trump and Putin, Sanctions Are a Setback 
        Both Sought to Avoid
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/world/europe/trump-putin-
        sanctions-hacking.html?partner=rss&emc=rss
    </link>
    <pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate>
</item>

找到新的项目，我还没有读过，并为每个项目存储链接，标题和获取链接，以抓取它的一些内容。我的问题是，我是否可以为此目的使用刮痕，如果是，如何使用？

scrapy

rss

python

django

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-24 10:50:35

是的，你可以用Scrapy来达到这个目的。有几件事你可以用来构建你的解决方案：

从设计用于解析XML的XMLFeedSpider开始。在提供的链接中有一个简单的例子。
要遵循指向单个文章的链接，从其中提取一些数据并将其添加到从XML提取的数据中，请使用请求链接的概念。
您没有指定应该如何实现我尚未阅读的项目。如果您的意思是不返回在以前的运行中已经刮过的项，则可以使用scrapy-deltafetch包。

现在你只需要把这些碎片放在一起。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45278343

复制

相似问题

问从rss抓取新闻网站
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从rss抓取新闻网站EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从rss抓取新闻网站
EN