首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >爬虫标头

爬虫标头
EN

Stack Overflow用户
提问于 2016-11-18 16:07:12
回答 2查看 2.3K关注 0票数 2

我正在创建一个简单的爬虫,它将从预定义的站点列表中抓取。我的问题很简单:有没有爬虫应该特别使用的http头?什么被认为是必需的,什么是需要定义的?

EN

回答 2

Stack Overflow用户

发布于 2016-11-18 21:49:41

您至少应该指定一个自定义用户代理(就像这里的StormCrawler所做的那样),以便您正在爬行的站点的站长可以看到您是机器人,并在需要时与您联系。

更重要的是,爬虫应该遵循robots.txt指令,限制对站点的请求频率,等等。这就引出了以下问题:为什么不重用和定制现有的开源爬虫,如StormCrawler,Nutch或Scrapy,而不是重新发明轮子?

票数 1
EN

Stack Overflow用户

发布于 2017-07-27 15:23:27

告诉你你是谁,你的意图,以及如何与你取得联系是很好的。我记得在运行一个站点并查看Apaceh的access.log时,以下信息实际上有一个任务(就像StromCrawler代码中列出的一些信息):

  1. 代理名称-只是您的代理软件的crawler
  2. Version的品牌名称-如果早期版本的代理出现问题,很高兴看到它是一个演进版本的
  3. URL,它指向有关代理的信息-指向有关爬虫的信息页面的链接。更多关于用途、技术建设等的信息。也是一个与机器人背后的人联系的地方。

如果你查看Request fields,你会发现两个你感兴趣的:User-Agentfrom。第二个是电子邮件地址,但我最后检查了一下,它没有出现在Apache2的access.log中。automated agents用户代理应包含名称、版本和指向包含有关代理的详细信息的页面的URL。在您的代理名称中使用单词"bot“也是很常见的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40672118

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档