我想从这个网站.I中提取组织名称和基本细节,使用刮除来提取信息。我尝试了刮壳( scrapy shell )提取第一个组织名称,腾讯控股()控股,并在response.css('div.flex-no-grow.cb-overflow-ellipsis.identifier-label::text').extract_first()中用scrapy编写了刮除命令,这个命令什么也没有返回。我是一个网络新手,请帮我把这个命令写下来,或者在我弄错的地方纠正我?
发布于 2018-12-27 13:43:46
我已经检查了你的网站scrapy以Scrapy/{version}(+http://scrapy.org)的形式传递标题,该网站抛出403错误,您可以通过打印response对象来验证这一点。
您需要做的是更改请求的标头,假设有更合适的标头( headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'} ),并将其与请求一起传递,然后将得到响应。
要在shell中尝试它,请执行以下操作:
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}
url = 'https://www.crunchbase.com/search/organization.companies'提出要求,如:
req = scrapy.Request(url=url, headers=headers)
fetch(req)现在,您将得到200响应,并使用您的CSS路径。
https://stackoverflow.com/questions/51319079
复制相似问题