它如何自动扫描所有可用页面?
我能想到的一种方法是从主页递归地扫描它。
但它不能扫描出后端的CMS。
那么这些扫描工具是如何工作的呢?
发布于 2011-02-08 14:58:18
愚蠢的网络爬虫:
首先创建一个数组来存储链接,然后自己在其中放入一个URL。创建第二个空数组来存储访问过的URL。现在启动一个执行以下操作的程序。
H19转到1 H210G211
如果您假设web上的每个页面都可以通过一些随机链接(可能是数十亿个)到达,那么简单地重复步骤1到4最终将导致下载整个web。由于web实际上并不是一个完全连接的图,因此您必须从不同的点开始这个过程,才能最终到达每个页面。
https://stackoverflow.com/questions/4930351
复制相似问题