文章/答案/技术大牛

发布

问正在读取robots.txt文件
EN

Stack Overflow用户

提问于 2019-01-28 00:52:22

回答 2查看 83关注 0票数 1

在下面的robots.txt文件中，它说明了禁止所有的magpie crawler目录。假设我使用的是一个不同的网络爬虫，比如Scrapy。这个robots.txt没有列出任何其他东西，那么允许抓取机器人抓取吗？

User-agent: magpie-crawler
Disallow: /


Sitemap: https://www.digitaltrends.com/sitemap_index.xml
Sitemap: https://www.digitaltrends.com/news.sitemap.google.xml
Sitemap: https://www.digitaltrends.com/image-sitemap-index.xml

web-crawler

robots.txt

回答 2

Stack Overflow用户

发布于 2019-01-28 01:00:57

根据official website的说法，这确实意味着只有一个机器人是不允许的。如果需要，您可以使用Scrapy。

如果他们愿意，他们可以只允许一个机器人：

User-agent: Google
Disallow: 

User-agent: * 
Disallow: /

票数 0

Stack Overflow用户

发布于 2019-01-28 02:16:35

您可以使用Scrapy解析数据。只需在标题中以Scrapy设置描述您是WEB浏览器：

'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54390519

复制

相似问题

问正在读取robots.txt文件
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问正在读取robots.txt文件EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问正在读取robots.txt文件
EN