首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当建立一个搜索引擎网站爬虫,它应该开始爬行整个互联网?

当建立一个搜索引擎网站爬虫,它应该开始爬行整个互联网?
EN

Stack Overflow用户
提问于 2021-12-08 03:35:35
回答 1查看 140关注 0票数 1

我试图建立一个搜索引擎,其中一个主要组成部分是一个网络爬虫,我被困在一点,在开始的时候,爬虫将开始爬行。它需要一个网页来爬行。第一个网页应该是什么?

EN

回答 1

Stack Overflow用户

发布于 2021-12-08 10:16:43

你想要选择一个有足够链接的网页,这样你最终就能爬上整个互联网。许多网站没有任何外部链接,所以重要的是选择一个网站做相反的。您需要一个链接到数千个或数百万个其他站点的站点。

备选方案包括:

  • 目录网站--传统上,开放目录项目(DMOZ)是许多web爬虫的入门种子。然而,它现在已经关闭了。你仍然可以在你的爬虫上植入它的数据或者其他一个已经打开来取代它的网站。
  • 新闻聚合网站--有几个大型网站可以收集吨和吨到其他网站的链接(比如reddit)。
  • 用户生成的论坛或问答网站(比如这个)可能是一个很好的起点,因为它们上的用户可以链接到许多外部的
  • 百科全书--维基百科有大量的外部链接--文章

的参考部分。

你可能不想把自己限制在一个选项上。我会给我的爬虫加上几个起始点。

我上面列出的三个源(dmoz、堆栈交换、wikipedia)可以在转储中下载它们的所有数据。您甚至可能希望从数据转储开始,以节省爬虫大量的工作,爬行这些特定的站点。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70269627

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档