我想看一些新闻网站,比如nytimes.com rss:
<item>
<title>
White House Signals Acceptance of Russia Sanctions Bill
</title>
<link>
https://www.nytimes.com/2017/07/23/us/politics/trump-russia-
sanctions.html?partner=rss&emc=rss
</link>
<pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate>
</item>
<item>
<title>
News Analysis: For Trump and Putin, Sanctions Are a Setback
Both Sought to Avoid
</title>
<link>
https://www.nytimes.com/2017/07/23/world/europe/trump-putin-
sanctions-hacking.html?partner=rss&emc=rss
</link>
<pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate>
</item>找到新的项目,我还没有读过,并为每个项目存储链接,标题和获取链接,以抓取它的一些内容。我的问题是,我是否可以为此目的使用刮痕,如果是,如何使用?
发布于 2017-07-24 10:50:35
是的,你可以用Scrapy来达到这个目的。有几件事你可以用来构建你的解决方案:
XMLFeedSpider开始。在提供的链接中有一个简单的例子。scrapy-deltafetch包。现在你只需要把这些碎片放在一起。
https://stackoverflow.com/questions/45278343
复制相似问题