我用node.js做了爬虫。我想爬一些网站的基础上,每小时。
我试着找出我应该使用的用户代理,但是我只得到了像谷歌机器人和必应机器人这样的结果。我不知道我能不能利用这些用户代理。
你能告诉我我应该使用哪个用户代理吗?
发布于 2018-09-10 11:49:17
既然你做了自己的爬虫,你可以想出你自己的名字。没有关于UserAgent可能是什么的规则,但是很多人使用像name/version这样的格式,比如:
myAwesomeCrawler/1.0您还可以包含一个url,这样网站所有者可以在日志中找到更多关于你的机器人的信息:
myAwesomeCrawler/1.0 (http://example.org)但最终还是取决于你。
当然,这完全取决于你所做的不违法的事情,或者违反了你正在爬行的网站的服务条款。
发布于 2018-09-10 11:46:16
取决于你想要实现什么。如果你想模仿合法的浏览器,只需使用Chrome或Firefox等普通浏览器的用户代理即可。如果你想告诉网站你是一个爬虫,只需使用你定义的东西(例如xyzCrawler)。
https://stackoverflow.com/questions/52257046
复制相似问题