首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >网络抓取和网络抓取有什么不同?

网络抓取和网络抓取有什么不同?
EN

Stack Overflow用户
提问于 2010-12-02 01:54:58
回答 6查看 69.8K关注 0票数 96

爬行和网络抓取有区别吗?

如果有不同之处,为了收集一些网络数据来提供一个数据库,以便在定制的搜索引擎中使用,最好的方法是什么?

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2010-12-02 02:07:23

抓取本质上是谷歌,雅虎,MSN等公司所做的,寻找任何信息。抓取通常针对特定的网站,用于特定的数据,例如用于价格比较,因此编码方式完全不同。

通常,抓取器会被定制到它应该抓取的网站上,并且会做一些(好的)爬虫不会做的事情,例如:

  • 不将robots.txt
  • Identify本身视为浏览器
  • 使用数据提交表单
  • 执行Javascript (如果需要充当用户)
票数 127
EN

Stack Overflow用户

发布于 2012-06-22 01:08:38

是的,它们是不同的。在实践中,您可能需要同时使用这两种方法。

(我不得不插话,因为到目前为止,其他答案都没有触及到它的本质。他们使用示例,但没有明确区分。当然,它们来自2010年!)

网络抓取,用最小的定义来说,就是处理网络文档并从中提取信息的过程。你可以在不做网页抓取的情况下进行网页抓取。

网络爬行,使用最小的定义,是从一个种子网址列表开始迭代地查找和获取网络链接的过程。严格地说,要进行网络爬行,你必须进行一定程度的网络抓取(以提取网址)。

要澄清其他答案中提到的一些概念:

  • robots.txt旨在应用于访问网页的任何自动化进程。因此,它适用于爬虫程序和scrapers.
  • 'Proper‘爬虫程序,两者都应该准确地识别自己。

一些参考资料:

  • Wikipedia on web scraping
  • Wikipedia on web crawlers
  • Wikipedia on robots.txt
票数 71
EN

Stack Overflow用户

发布于 2010-12-02 01:58:19

AFAIK Web爬行是Google所做的-它在网站周围查找链接,并建立该网站及其链接的网站布局的数据库

网络抓取将是对网页的程序分析,以从其中加载一些数据,EG加载BBC天气并从其中抓取(抓取)天气预报,然后将其放在其他地方或在另一个程序中使用。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4327392

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档