首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当目录列表被停用时,有没有办法从get服务器获取文件?

当目录列表被停用时,有没有办法从get服务器获取文件?
EN

Stack Overflow用户
提问于 2011-07-03 23:47:13
回答 2查看 881关注 0票数 1

我试着为每个文件建立一个“爬虫”或“自动下载器”,每个文件都是基于try服务器/网页的。

所以在我看来有两种方法:

1)开启目录列表。读出列表中的数据并下载您看到的每个文件。

2)禁用目录列表。然后呢?唯一的想法是必须暴力破解文件名并查看服务器的反应(例如: 404表示没有文件,403表示找到的目录,data表示正确的找到的数据)。

我的想法对吗?有没有更好的方法?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-07-03 23:54:07

您可以随时解析HTML,并查找和跟踪(‘爬行’)您得到的链接。这就是大多数爬虫的实现方式。

看看这些库,它们可以帮助你做到这一点:

Html Agility Pack

  • Python:Beautiful Soup

  • PHP:HTMLSimpleDom

  1. .NET

始终在站点的根目录中查找robots.txt,并确保遵守站点关于允许抓取哪些页面的规则。

票数 2
EN

Stack Overflow用户

发布于 2011-07-04 00:40:48

你不应该索引那些网站管理员阻止你去的页面。

这就是Robots.txt的全部内容。

您应该检查每个文件夹中描述为HereSiteMap文件

它通常是sitemap.xml,或者有时在Robots.txt中提到它的名称

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6563852

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档