这似乎是一个愚蠢的问题,但是否有可能只检索网页的一部分(例如,让服务器只发送特定的<div>)?我知道只有get the HEAD of a page via HTTP (at least in Python)是可能的。
我认为这直接违反了HTTP GET的工作方式,但我还是决定问一问。
我正在考虑网络抓取数千个页面,我注意到数据使用率变得相当高。我不需要整个页面,只需要相关的部分。
发布于 2016-04-24 01:01:54
这取决于你所说的“页面的特定部分”是什么意思。
HTTP协议允许使用起始位置和响应大小请求部分内容,请参阅other SO question Retreive part of web page中描述的Range报头。
如果你想得到像“页面上的表格”这样的东西,那你就不走运了,因为没有办法用HTTP表达这种请求。
https://stackoverflow.com/questions/36812059
复制相似问题