首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >网页扫描软件的原理是什么?

网页扫描软件的原理是什么?
EN

Stack Overflow用户
提问于 2011-02-08 14:49:56
回答 1查看 104关注 0票数 0

它如何自动扫描所有可用页面?

我能想到的一种方法是从主页递归地扫描它。

但它不能扫描出后端的CMS。

那么这些扫描工具是如何工作的呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-02-08 14:58:18

愚蠢的网络爬虫:

首先创建一个数组来存储链接,然后自己在其中放入一个URL。创建第二个空数组来存储访问过的URL。现在启动一个执行以下操作的程序。

  1. 读取并删除链接数组中的第一项
  2. 下载网页位于该URL处
  3. 分析HTML有关链接标记,请将找到的所有链接添加到链接数组中
  4. 将网页URL添加到已访问的URL数组

H19转到1 H210G211

如果您假设web上的每个页面都可以通过一些随机链接(可能是数十亿个)到达,那么简单地重复步骤1到4最终将导致下载整个web。由于web实际上并不是一个完全连接的图,因此您必须从不同的点开始这个过程,才能最终到达每个页面。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4930351

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档