首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >正在读取robots.txt文件

正在读取robots.txt文件
EN

Stack Overflow用户
提问于 2019-01-28 00:52:22
回答 2查看 83关注 0票数 1

在下面的robots.txt文件中,它说明了禁止所有的magpie crawler目录。假设我使用的是一个不同的网络爬虫,比如Scrapy。这个robots.txt没有列出任何其他东西,那么允许抓取机器人抓取吗?

代码语言:javascript
复制
User-agent: magpie-crawler
Disallow: /


Sitemap: https://www.digitaltrends.com/sitemap_index.xml
Sitemap: https://www.digitaltrends.com/news.sitemap.google.xml
Sitemap: https://www.digitaltrends.com/image-sitemap-index.xml
EN

回答 2

Stack Overflow用户

发布于 2019-01-28 01:00:57

根据official website的说法,这确实意味着只有一个机器人是不允许的。如果需要,您可以使用Scrapy。

如果他们愿意,他们可以只允许一个机器人:

代码语言:javascript
复制
User-agent: Google
Disallow: 

User-agent: * 
Disallow: /
票数 0
EN

Stack Overflow用户

发布于 2019-01-28 02:16:35

您可以使用Scrapy解析数据。只需在标题中以Scrapy设置描述您是WEB浏览器:

代码语言:javascript
复制
'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54390519

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档