首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当我使用自己的程序爬行站点时,我应该使用什么用户代理

当我使用自己的程序爬行站点时,我应该使用什么用户代理
EN

Stack Overflow用户
提问于 2018-09-10 11:42:55
回答 2查看 388关注 0票数 1

我用node.js做了爬虫。我想爬一些网站的基础上,每小时。

我试着找出我应该使用的用户代理,但是我只得到了像谷歌机器人和必应机器人这样的结果。我不知道我能不能利用这些用户代理。

你能告诉我我应该使用哪个用户代理吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-09-10 11:49:17

既然你做了自己的爬虫,你可以想出你自己的名字。没有关于UserAgent可能是什么的规则,但是很多人使用像name/version这样的格式,比如:

代码语言:javascript
复制
myAwesomeCrawler/1.0

您还可以包含一个url,这样网站所有者可以在日志中找到更多关于你的机器人的信息:

代码语言:javascript
复制
myAwesomeCrawler/1.0 (http://example.org)

但最终还是取决于你。

当然,这完全取决于你所做的不违法的事情,或者违反了你正在爬行的网站的服务条款。

票数 2
EN

Stack Overflow用户

发布于 2018-09-10 11:46:16

取决于你想要实现什么。如果你想模仿合法的浏览器,只需使用Chrome或Firefox等普通浏览器的用户代理即可。如果你想告诉网站你是一个爬虫,只需使用你定义的东西(例如xyzCrawler)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52257046

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档