Title说,我正试图使一个CrawlSpider在亚马逊的一些产品工作,但没有任何效果。
这里是我想要获得产品的原始网址页。
查看下一个链接所在的HTML代码,如下所示:
<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s/ref=sr_pg_2?me=A1COIXT69Y8KR&rh=i%3Amerchant-items&page=2&ie=UTF8&qid=1444414650">
<span id="pagnNextString">Next Page</span>
<span class="srSprite pagnNextArrow"></span>
</a>这是我使用的当前reg表达式:
s/ref=sr_pg_[0-9]\?[^">]+使用像Pythex.org这样的服务,这似乎是可以的,我得到了网址的这一部分:
s/ref=sr_pg_2?me=A1COIXT69Y8KR&rh=i%3Amerchant-items&page=2&ie=UTF8&qid=1444414650这是我的爬虫代码:
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from amazon.items import AmazonProduct
class AmazonCrawlerSpider(CrawlSpider):
name = 'amazon_crawler'
allowed_domains = ['amazon.com']
#allowed_domains = ['stackoverflow.com']
start_urls = ['http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1']
#start_urls = ['http://stackoverflow.com/questions?pagesize=50&sort=newest']
rules = [
Rule(LinkExtractor(allow=r's/ref=sr_pg_[0-9]\?[^">]+'),
callback='parse_item', follow=True)
]
'''rules = [
Rule(LinkExtractor(allow=r'questions\?page=[0-9]&sort=newest'),
callback='parse_item', follow=True)
]'''
def parse_item(self, response):
products = response.xpath('//div[@class="summary"]/h3')
for product in products:
item = AmazonProduct()
print('found it!')
yield item由于一些未知的原因,爬虫没有跟踪链接。这段代码是基于RealPython的部落格教程,他们在那里爬行StackOverflow询问问题。实际上,只需取消注释代码,以确保这是可行的。
知道我在这里错过了什么吗?谢谢!
更新:
基于@Rejected的回答,我切换到了shell,正如他指出的那样,我可以看到HTML代码与我在浏览器中看到的不同。
实际上,Scrapy正在获取的代码,有趣的部分是:
<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s?ie=UTF8&me=A19COJAJDNQSRP&page=2">
<span id="pagnNextString">Next Page</span>
<span class="srSprite pagnNextArrow"></span>
</a>我已经更改了reg表达式,如下所示:
s[^">&]+&me=A19COJAJDNQSRP&page=[0-9]$现在我得到了shell中的链接:
[Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1', text='\n \n \n \n \n \n \n \n ', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=2', text='2', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=3', text='3', fragment='', nofollow=False)]而且爬行器也是正确的!
发布于 2015-10-09 21:57:16
Scrapy提供的HTML数据与您在浏览器中看到的不同(甚至只是请求"view-source:url")。
为什么,我不能百分之百地确定。所需的三(?)链接将匹配r's/ref=sr_pg_[0-9]'在您的允许路径。
因为Amazon正在做一些决定浏览器的事情,所以您也应该测试在Scrapy实例中得到了什么。将其放入shell中,并通过以下方式亲自使用LinkExtractor:
LinkExtractor(allow=r's/ref=sr_pg_[0-9]').extract_links(response)https://stackoverflow.com/questions/33045677
复制相似问题