文章/答案/技术大牛

发布

社区首页 >问答首页 >当目录列表被停用时，有没有办法从get服务器获取文件？

问当目录列表被停用时，有没有办法从get服务器获取文件？
EN

Stack Overflow用户

提问于 2011-07-03 23:47:13

回答 2查看 881关注 0票数 1

我试着为每个文件建立一个“爬虫”或“自动下载器”，每个文件都是基于try服务器/网页的。

所以在我看来有两种方法：

1)开启目录列表。读出列表中的数据并下载您看到的每个文件。

2)禁用目录列表。然后呢？唯一的想法是必须暴力破解文件名并查看服务器的反应(例如: 404表示没有文件，403表示找到的目录，data表示正确的找到的数据)。

我的想法对吗？有没有更好的方法？

.net

webserver

web-crawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-07-03 23:54:07

您可以随时解析HTML，并查找和跟踪(‘爬行’)您得到的链接。这就是大多数爬虫的实现方式。

看看这些库，它们可以帮助你做到这一点：

Html Agility Pack

Python：Beautiful Soup

PHP：HTMLSimpleDom

：

.NET

始终在站点的根目录中查找robots.txt，并确保遵守站点关于允许抓取哪些页面的规则。

票数 2

Stack Overflow用户

发布于 2011-07-04 00:40:48

你不应该索引那些网站管理员阻止你去的页面。

这就是Robots.txt的全部内容。

您应该检查每个文件夹中描述为Here的SiteMap文件

它通常是sitemap.xml，或者有时在Robots.txt中提到它的名称

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6563852

复制

相似问题

问当目录列表被停用时，有没有办法从get服务器获取文件？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当目录列表被停用时，有没有办法从get服务器获取文件？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当目录列表被停用时，有没有办法从get服务器获取文件？
EN