爬行和网络抓取有区别吗?
如果有不同之处,为了收集一些网络数据来提供一个数据库,以便在定制的搜索引擎中使用,最好的方法是什么?
发布于 2010-12-02 02:07:23
抓取本质上是谷歌,雅虎,MSN等公司所做的,寻找任何信息。抓取通常针对特定的网站,用于特定的数据,例如用于价格比较,因此编码方式完全不同。
通常,抓取器会被定制到它应该抓取的网站上,并且会做一些(好的)爬虫不会做的事情,例如:
发布于 2012-06-22 01:08:38
是的,它们是不同的。在实践中,您可能需要同时使用这两种方法。
(我不得不插话,因为到目前为止,其他答案都没有触及到它的本质。他们使用示例,但没有明确区分。当然,它们来自2010年!)
网络抓取,用最小的定义来说,就是处理网络文档并从中提取信息的过程。你可以在不做网页抓取的情况下进行网页抓取。
网络爬行,使用最小的定义,是从一个种子网址列表开始迭代地查找和获取网络链接的过程。严格地说,要进行网络爬行,你必须进行一定程度的网络抓取(以提取网址)。
要澄清其他答案中提到的一些概念:
robots.txt旨在应用于访问网页的任何自动化进程。因此,它适用于爬虫程序和scrapers.一些参考资料:
发布于 2010-12-02 01:58:19
AFAIK Web爬行是Google所做的-它在网站周围查找链接,并建立该网站及其链接的网站布局的数据库
网络抓取将是对网页的程序分析,以从其中加载一些数据,EG加载BBC天气并从其中抓取(抓取)天气预报,然后将其放在其他地方或在另一个程序中使用。
https://stackoverflow.com/questions/4327392
复制相似问题