首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scrapy+Splash返回错误的标头

Scrapy+Splash返回错误的标头
EN

Stack Overflow用户
提问于 2021-07-11 15:38:41
回答 1查看 24关注 0票数 0

当使用Splash和Scrapy时,标题是从Splash服务器返回的,而不是从Splash呈现的网站返回的。

response.headers返回:

代码语言:javascript
复制
{b'Server': [b'TwistedWeb/19.7.0'], b'Date': [b'Sun, 11 Jul 2021 07:31:32 GMT'], b'Content-Type': [b'text/html; charset=utf-8']}

我正在尝试获取实际网站的标题:

代码语言:javascript
复制
Connection: Keep-Alive
Content-Length: 5
Content-Type: text/html
Date: Sun, 11 Jul 2021 07:05:49 GMT
Keep-Alive: timeout=5, max=100
Server: Apache
X-Cache: HIT

我如何才能获得网站的标题,而不是Splash服务器?

EN

回答 1

Stack Overflow用户

发布于 2021-07-11 15:46:24

我把它和下面的代码一起工作:

代码语言:javascript
复制
splash_lua_script = """
function main(splash, args)
    assert(splash:go(args.url))
    assert(splash:wait(0.5))

    local entries = splash:history()
    local last_response = entries[#entries].response

    return {
        html = splash:html(),
        headers = last_response.headers
    }
end
"""

然后把它提交给response.headers和Scrapy。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68334175

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档