首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >爬行过程中显示[部分]的Portia蜘蛛日志

爬行过程中显示[部分]的Portia蜘蛛日志
EN

Stack Overflow用户
提问于 2015-11-09 09:32:54
回答 1查看 709关注 0票数 2

我已经使用Portia网络刮刀创建了一个蜘蛛,开始URL是

代码语言:javascript
复制
https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs

当我在scrapyd中调度这个蜘蛛的时候

代码语言:javascript
复制
DEBUG: Crawled (200) <GET https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs> (referer: None) ['partial']
DEBUG: Crawled (200) <GET https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.returnToResults&CurrentPage=2> (referer: https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs) ['partial']
DEBUG: Crawled (200) <GET https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.showJob&RID=21805&CurrentPage=1> (referer: https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs) ['partial']`<br><br>

['partial']是什么意思,为什么页面上的内容没有被花哨的人刮掉?

EN

回答 1

Stack Overflow用户

发布于 2016-08-17 22:10:31

迟答,但希望不是无用的,因为这种行为的刮刮似乎没有很好的记录。从scrapy源查看此代码行,当请求遇到扭曲的PotentialDataLoss错误时,将设置PotentialDataLoss标志。根据相应的扭曲的文件

只有在向不设置内容长度或在响应中进行传输编码的HTTP服务器发出请求时,才会发生这种情况。

可能的原因包括:

  • 服务器配置错误。
  • 有一个代理阻塞了一些标头
  • 您得到的响应通常不具有内容长度,例如重定向(301、302、303),但您已经设置了handle_httpstatus_listhandle_httpstatus_all,使响应不会被HttpErrorMiddleware过滤掉或由RedirectMiddleware获取。
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33606080

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档