我试图建立一个搜索引擎,其中一个主要组成部分是一个网络爬虫,我被困在一点,在开始的时候,爬虫将开始爬行。它需要一个网页来爬行。第一个网页应该是什么?
发布于 2021-12-08 10:16:43
你想要选择一个有足够链接的网页,这样你最终就能爬上整个互联网。许多网站没有任何外部链接,所以重要的是选择一个网站做相反的。您需要一个链接到数千个或数百万个其他站点的站点。
备选方案包括:
的参考部分。
你可能不想把自己限制在一个选项上。我会给我的爬虫加上几个起始点。
我上面列出的三个源(dmoz、堆栈交换、wikipedia)可以在转储中下载它们的所有数据。您甚至可能希望从数据转储开始,以节省爬虫大量的工作,爬行这些特定的站点。
https://stackoverflow.com/questions/70269627
复制相似问题