我听说网络爬虫应该只遵循GET请求,而不是POST请求。
在现实世界中,这是一个有效的假设吗?
发布于 2009-06-19 19:08:51
通常,它们不做POST请求。这只是目前的情况,我相信任何地方都没有规定。有些搜索引擎是experimenting with crawling forms的,但它们仍然是GET请求。
发布于 2009-06-19 19:07:55
你是在问爬虫是否会从表单标签中解析出URL并跟随它们?有些人会的。这是一个非常安全的假设,他们将始终使用GET动词。
垃圾邮件机器人则是另一回事。
发布于 2009-06-19 20:37:54
有礼貌的爬虫只使用GET请求。就像有礼貌的爬虫遵守bots.txt一样。
然而,即使是谷歌也在玩弄礼貌的定义,他们的爬虫已经对一些网站造成了严重的带宽破坏,包括stackoverflow。
https://stackoverflow.com/questions/1019558
复制相似问题