在下面的robots.txt文件中,它说明了禁止所有的magpie crawler目录。假设我使用的是一个不同的网络爬虫,比如Scrapy。这个robots.txt没有列出任何其他东西,那么允许抓取机器人抓取吗?
User-agent: magpie-crawler
Disallow: /
Sitemap: https://www.digitaltrends.com/sitemap_index.xml
Sitemap: https://www.digitaltrends.com/news.sitemap.google.xml
Sitemap: https://www.digitaltrends.com/image-sitemap-index.xml发布于 2019-01-28 01:00:57
根据official website的说法,这确实意味着只有一个机器人是不允许的。如果需要,您可以使用Scrapy。
如果他们愿意,他们可以只允许一个机器人:
User-agent: Google
Disallow:
User-agent: *
Disallow: /发布于 2019-01-28 02:16:35
您可以使用Scrapy解析数据。只需在标题中以Scrapy设置描述您是WEB浏览器:
'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'https://stackoverflow.com/questions/54390519
复制相似问题