我刚接触Scrapy,我想知道如何让爬虫遵守robots.txt文件中两个或多个用户代理的规则(例如,Googlebot和Googlebot-Mobile)。
我目前使用的是ROBOTSTXT_USER_AGENT,但是该选项只允许我指定一个用户代理字符串用于在robots.txt文件中进行匹配,并且我需要匹配至少两个用户代理。你知道怎么做吗?
发布于 2020-01-21 22:57:14
我只是使用/来分离要匹配的用户代理,它起作用了:
"ROBOTSTXT_USER_AGENT": "Googlebot | Googlebot-Mobile | *"https://stackoverflow.com/questions/59826431
复制相似问题