我试着为每个文件建立一个“爬虫”或“自动下载器”,每个文件都是基于try服务器/网页的。
所以在我看来有两种方法:
1)开启目录列表。读出列表中的数据并下载您看到的每个文件。
2)禁用目录列表。然后呢?唯一的想法是必须暴力破解文件名并查看服务器的反应(例如: 404表示没有文件,403表示找到的目录,data表示正确的找到的数据)。
我的想法对吗?有没有更好的方法?
发布于 2011-07-03 23:54:07
您可以随时解析HTML,并查找和跟踪(‘爬行’)您得到的链接。这就是大多数爬虫的实现方式。
看看这些库,它们可以帮助你做到这一点:
Html Agility Pack
:
始终在站点的根目录中查找robots.txt,并确保遵守站点关于允许抓取哪些页面的规则。
发布于 2011-07-04 00:40:48
你不应该索引那些网站管理员阻止你去的页面。
这就是Robots.txt的全部内容。
您应该检查每个文件夹中描述为Here的SiteMap文件
它通常是sitemap.xml,或者有时在Robots.txt中提到它的名称
https://stackoverflow.com/questions/6563852
复制相似问题