文章/答案/技术大牛

发布

社区首页 >问答首页 >网络抓取和网络抓取有什么不同？

问网络抓取和网络抓取有什么不同？
EN

Stack Overflow用户

提问于 2010-12-02 01:54:58

回答 6查看 69.8K关注 0票数 96

爬行和网络抓取有区别吗？

如果有不同之处，为了收集一些网络数据来提供一个数据库，以便在定制的搜索引擎中使用，最好的方法是什么？

search-engine

web-scraping

web-crawler

回答 6

Stack Overflow用户

回答已采纳

发布于 2010-12-02 02:07:23

抓取本质上是谷歌，雅虎，MSN等公司所做的，寻找任何信息。抓取通常针对特定的网站，用于特定的数据，例如用于价格比较，因此编码方式完全不同。

通常，抓取器会被定制到它应该抓取的网站上，并且会做一些(好的)爬虫不会做的事情，例如：

不将robots.txt
Identify本身视为浏览器
使用数据提交表单
执行Javascript (如果需要充当用户)

票数 127

Stack Overflow用户

发布于 2012-06-22 01:08:38

是的，它们是不同的。在实践中，您可能需要同时使用这两种方法。

(我不得不插话，因为到目前为止，其他答案都没有触及到它的本质。他们使用示例，但没有明确区分。当然，它们来自2010年！)

网络抓取，用最小的定义来说，就是处理网络文档并从中提取信息的过程。你可以在不做网页抓取的情况下进行网页抓取。

网络爬行，使用最小的定义，是从一个种子网址列表开始迭代地查找和获取网络链接的过程。严格地说，要进行网络爬行，你必须进行一定程度的网络抓取(以提取网址)。

要澄清其他答案中提到的一些概念：

robots.txt旨在应用于访问网页的任何自动化进程。因此，它适用于爬虫程序和scrapers.
'Proper‘爬虫程序，两者都应该准确地识别自己。

一些参考资料：

Wikipedia on web scraping
Wikipedia on web crawlers
Wikipedia on robots.txt

票数 71

Stack Overflow用户

发布于 2010-12-02 01:58:19

AFAIK Web爬行是Google所做的-它在网站周围查找链接，并建立该网站及其链接的网站布局的数据库

网络抓取将是对网页的程序分析，以从其中加载一些数据，EG加载BBC天气并从其中抓取(抓取)天气预报，然后将其放在其他地方或在另一个程序中使用。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4327392

复制

相似问题

问网络抓取和网络抓取有什么不同？
EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络抓取和网络抓取有什么不同？EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络抓取和网络抓取有什么不同？
EN