文章/答案/技术大牛

发布

社区首页 >问答首页 >爬虫标头

问爬虫标头
EN

Stack Overflow用户

提问于 2016-11-18 16:07:12

回答 2查看 2.3K关注 0票数 2

我正在创建一个简单的爬虫，它将从预定义的站点列表中抓取。我的问题很简单:有没有爬虫应该特别使用的http头？什么被认为是必需的，什么是需要定义的？

http-headers

web-crawler

回答 2

Stack Overflow用户

发布于 2016-11-18 21:49:41

您至少应该指定一个自定义用户代理(就像这里的StormCrawler所做的那样)，以便您正在爬行的站点的站长可以看到您是机器人，并在需要时与您联系。

更重要的是，爬虫应该遵循robots.txt指令，限制对站点的请求频率，等等。这就引出了以下问题:为什么不重用和定制现有的开源爬虫，如StormCrawler，Nutch或Scrapy，而不是重新发明轮子？

票数 1

Stack Overflow用户

发布于 2017-07-27 15:23:27

告诉你你是谁，你的意图，以及如何与你取得联系是很好的。我记得在运行一个站点并查看Apaceh的access.log时，以下信息实际上有一个任务(就像StromCrawler代码中列出的一些信息)：

代理名称-只是您的代理软件的crawler
Version的品牌名称-如果早期版本的代理出现问题，很高兴看到它是一个演进版本的
URL，它指向有关代理的信息-指向有关爬虫的信息页面的链接。更多关于用途、技术建设等的信息。也是一个与机器人背后的人联系的地方。

如果你查看Request fields，你会发现两个你感兴趣的：User-Agent和from。第二个是电子邮件地址，但我最后检查了一下，它没有出现在Apache2的access.log中。automated agents用户代理应包含名称、版本和指向包含有关代理的详细信息的页面的URL。在您的代理名称中使用单词"bot“也是很常见的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40672118

复制

相似问题

问爬虫标头
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬虫标头EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬虫标头
EN