文章/答案/技术大牛

发布

社区首页 >问答首页 >当我使用自己的程序爬行站点时，我应该使用什么用户代理

问当我使用自己的程序爬行站点时，我应该使用什么用户代理
EN

Stack Overflow用户

提问于 2018-09-10 11:42:55

回答 2查看 388关注 0票数 1

我用node.js做了爬虫。我想爬一些网站的基础上，每小时。

我试着找出我应该使用的用户代理，但是我只得到了像谷歌机器人和必应机器人这样的结果。我不知道我能不能利用这些用户代理。

你能告诉我我应该使用哪个用户代理吗？

http-headers

user-agent

http

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-09-10 11:49:17

既然你做了自己的爬虫，你可以想出你自己的名字。没有关于UserAgent可能是什么的规则，但是很多人使用像name/version这样的格式，比如：

myAwesomeCrawler/1.0

您还可以包含一个url，这样网站所有者可以在日志中找到更多关于你的机器人的信息：

myAwesomeCrawler/1.0 (http://example.org)

但最终还是取决于你。

当然，这完全取决于你所做的不违法的事情，或者违反了你正在爬行的网站的服务条款。

票数 2

Stack Overflow用户

发布于 2018-09-10 11:46:16

取决于你想要实现什么。如果你想模仿合法的浏览器，只需使用Chrome或Firefox等普通浏览器的用户代理即可。如果你想告诉网站你是一个爬虫，只需使用你定义的东西(例如xyzCrawler)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52257046

复制

相似问题

问当我使用自己的程序爬行站点时，我应该使用什么用户代理
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当我使用自己的程序爬行站点时，我应该使用什么用户代理EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当我使用自己的程序爬行站点时，我应该使用什么用户代理
EN