文章/答案/技术大牛

发布

社区首页 >问答首页 >刮破壳不返回任何东西。

问刮破壳不返回任何东西。
EN

Stack Overflow用户

提问于 2018-07-13 06:41:40

回答 1查看 730关注 0票数 0

我想从这个网站.I中提取组织名称和基本细节，使用刮除来提取信息。我尝试了刮壳( scrapy shell )提取第一个组织名称，腾讯控股()控股，并在response.css('div.flex-no-grow.cb-overflow-ellipsis.identifier-label::text').extract_first()中用scrapy编写了刮除命令，这个命令什么也没有返回。我是一个网络新手，请帮我把这个命令写下来，或者在我弄错的地方纠正我？

scrapy

python

html

css

web-scraping

回答 1

Stack Overflow用户

发布于 2018-12-27 13:43:46

我已经检查了你的网站scrapy以Scrapy/{version}(+http://scrapy.org)的形式传递标题，该网站抛出403错误，您可以通过打印response对象来验证这一点。

您需要做的是更改请求的标头，假设有更合适的标头( headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'} )，并将其与请求一起传递，然后将得到响应。

要在shell中尝试它，请执行以下操作：

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}
url = 'https://www.crunchbase.com/search/organization.companies'

提出要求，如：

req = scrapy.Request(url=url, headers=headers)
fetch(req)

现在，您将得到200响应，并使用您的CSS路径。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51319079

复制

相似问题

问刮破壳不返回任何东西。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问刮破壳不返回任何东西。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问刮破壳不返回任何东西。
EN