我正在尝试爬行的网站包含数千个用户页面,我想抓取这些页面并将其输出到另一个网站上。例如,example.com列出了用户的照片、姓名和头衔。代码看起来如下所示:
<a href="/tommy"><img src="userphoto"></a>
<h1 class="username">Tommy</h1>
<p class="headline">President</p>要找到我需要抓取的页面,您需要转到example.com?id=1,然后一直到id100。每个页面包含大约50个用户。我如何抓取example.com上100个页面中的每一个,抓取用户照片、姓名和标题,然后将这些内容输出到另一个网站?请帮帮我!
发布于 2014-07-12 06:04:56
您可以使用以下命令自行完成此操作:
for获取从1到100requests的id获取页面lxml或BeautifulSoup获取pagerequests上的元素(再次)或pyCurl下载图像或者,您可以使用框架Scrapy
在这两种情况下,你都必须学习它。
发布于 2014-07-12 06:22:37
如果你愿意使用别人已经写好的代码,那就试试scrapy吧。它的功能相当齐全。
https://stackoverflow.com/questions/24707255
复制相似问题