首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >刮破壳不返回任何东西。

刮破壳不返回任何东西。
EN

Stack Overflow用户
提问于 2018-07-13 06:41:40
回答 1查看 730关注 0票数 0

我想从这个网站.I中提取组织名称和基本细节,使用刮除来提取信息。我尝试了刮壳( scrapy shell )提取第一个组织名称,腾讯控股()控股,并在response.css('div.flex-no-grow.cb-overflow-ellipsis.identifier-label::text').extract_first()中用scrapy编写了刮除命令,这个命令什么也没有返回。我是一个网络新手,请帮我把这个命令写下来,或者在我弄错的地方纠正我?

EN

回答 1

Stack Overflow用户

发布于 2018-12-27 13:43:46

我已经检查了你的网站scrapy以Scrapy/{version}(+http://scrapy.org)的形式传递标题,该网站抛出403错误,您可以通过打印response对象来验证这一点。

您需要做的是更改请求的标头,假设有更合适的标头( headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'} ),并将其与请求一起传递,然后将得到响应。

要在shell中尝试它,请执行以下操作:

代码语言:javascript
复制
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}
url = 'https://www.crunchbase.com/search/organization.companies'

提出要求,如:

代码语言:javascript
复制
req = scrapy.Request(url=url, headers=headers)
fetch(req)

现在,您将得到200响应,并使用您的CSS路径。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51319079

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档