首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏超级码力

    🧭 Web Scraper 学习导航

    Web Scraper 也可以爬取这种类型的网页。 相关的教程可见:Web Scraper 控制链接分页、Web Scraper 抓取分页器类型网页 和 Web Scraper 利用 Link 选择器翻页。 Web Scraper 可以 Element click 选择器抓取这种分页网页,相关教程可见:Web Scraper 点击「下一页」按钮翻页。 我们可以利用 Web Scraper 的 Link 选择器来抓取这种组合网页,具体操作可以看教程:Web Scraper 抓取二级网页。 Web Scraper 的优点 轻量:非常的轻量。上手只需要一个 Chrome 浏览器和一个 Web Scraper 插件。

    2.3K42编辑于 2022-02-23
  • 来自专栏超级码力

    web scraper 提问须知

    为了让每次沟通都简单高效,快速定位问题,有关 web scraper 的疑惑请尽量按照下文的格式提问: 1.指出教程中的疑惑点 由于微信号文章发布后就没有办法改文章了,我建议大家去 https://www.cnblogs.com /web-scraper 这个网址看教程,我会持续跟进 web scraper 的更新和教程案例网站的变更,避免出现教程过时的情况。 2.检查版本号 提问前最好先检查一下 web scraper 的版本号。 本文教程只适用于 0.4.1 及以上版本 ,因为我写教程时用的 0.4.1 版本。低于此版本的爬虫插件无法保证教程有效。 4.描述问题 web scraper 爬不到数据,会有很多因素。提问前最好先定位一下问题:是元素无法勾选?还是无法翻页?导出数据失败还是抓取页面异常崩溃?

    59540发布于 2020-07-08
  • 来自专栏超级码力

    简易数据分析 09 | Web Scraper 自动控制抓取数量 & Web Scraper 父子选择器

    【这是简易数据分析系列的第 9 篇文章】 今天我们说说 Web Scraper 的一些小功能:自动控制 Web Scraper 抓取数量和 Web Scraper 的父子选择器。 我们目前有两种方式停止 Web Scraper 的抓取。 1.断网大法 当你觉得数据抓的差不多了,直接把电脑的网络断了。 网络一断浏览器就加载不了数据,Web Scraper 就会误以为数据抓取完了,然后它会自动停止自动保存。 断网大法简单粗暴,虽不优雅,但是有效。缺点就是你得在旁边盯着,关键点手动操作,不是很智能。 其实 Web scraper 提供了对应的解决方案,那就是通过键盘来选择元素,这样就不会触发点击打开新的网页的问题了。 这期介绍了 Web Scraper 的两个使用小技巧,下期我们说说 Web Scraper 如何抓取无限滚动的网页。

    1.7K20发布于 2020-07-09
  • 来自专栏Python大数据分析

    web scraper无代码爬虫工具怎么入门?

    Web Scraper是一款功能丰富的浏览器扩展爬虫工具,有着直观的图形界面,无需编写代码即可自定义数据抓取规则,高效地从网页中提取结构化数据 而且Web Scraper它支持灵活的数据导出选项,广泛应用于电商监控 Web Scraper的安装也很简单,在Chrome应用商店里搜索“Web Scraper”,找到该插件并点击“添加至Chrome”按钮。 安装好Web Scraper后,需要在开发者工具中使用它,按F12键打开开发者模式能找到Web Scraper功能区,在这里可以新建并配置爬虫,你也不需要写任何代码就能抓取数据。 下面讲讲实践案例,使用Web Scraper爬取抖音评论数据。 首先,按F12打开开发者界面,点击Web Scraper按钮,会进入到操作界面。 而且Web Scraper抓取的数据形式有限,适合文本这样简单的数据需求,对于图片、视频就会比较困难。

    47610编辑于 2024-09-25
  • web scraper——简单的爬取数据【二】

    web scraper——安装【一】 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧。 http://top.baidu.com/buzz? https://pan.baidu.com/s/1W-8kGDznZZjoQIk1e6ikfQ 提取码:3dj7 爬取步骤 创建站点 打开百度热点,ctrl+shit+i进入检测工具,打开web scraper 然后回到web scraper控制台,查看信息无误后勾选multiple确认无误后,创建element的select 爬取自己想要的信息,点击进入hotList里面,然后继续创建select选择 填写具体的 再次转到web scraper的控制台后,确认无误即可保存 运行脚本,进行采集 默认配置即可,想修改也可以的,我一般直接默认的 点击开始脚本后,会将采集的页面弹出,采集完成右下角会出现提示,采集过程中点击 即可下载 数据内容 到这里使用web scraper进行数据采集就结束了

    79210编辑于 2024-08-16
  • 来自专栏Python大数据分析

    Web Scraper,强大的浏览器爬虫插件!

    Web Scraper的安装也很简单,在Chrome应用商店里搜索“Web Scraper”,找到该插件并点击“添加至Chrome”按钮。 安装好Web Scraper后,需要在开发者工具中使用它,按F12键打开开发者模式能找到Web Scraper功能区,在这里可以新建并配置爬虫,你也不需要写任何代码就能抓取数据。 下面讲讲实践案例,使用Web Scraper爬取抖音评论数据。 首先,按F12打开开发者界面,点击Web Scraper按钮,会进入到操作界面。 使用Web Scraper需要对HTML结构有一定的了解,需要自己一步步去配置,可能对于初学者还有些门槛,适合IT从业者。 而且Web Scraper抓取的数据形式有限,适合文本这样简单的数据需求,对于图片、视频就会比较困难。

    1.6K10编辑于 2024-09-03
  • 来自专栏技术实操

    Web Scraper实战:轻松构建电影数据库

    Web Scraper就是这样一个实用的工具,让我们能够轻松获取网页中的宝贵数据。一、Web Scraper工具1. 什么是Web Scraper? Web Scraper是一款基于浏览器的数据采集扩展工具,它就像一位不知疲倦的数字图书管理员,能够自动翻阅网页并将指定内容整理归档。2. 环境准备graph LR A[安装Web Scraper扩展] --> B[打开开发者工具] B --> C[切换到Web Scraper面板]2.

    32610编辑于 2025-08-26
  • 来自专栏超级码力

    简易数据分析 07 | Web Scraper 抓取多条内容

    根据 Web Scraper 的特性,想抓取多类数据,首先要抓取包裹多类数据的容器,然后再选择容器里的数据,这样才能正确的抓取。 如果对以下的操作有疑问,可以看 简易数据分析 04 的内容,那篇文章详细图解了如何用 Web Scraper 选择元素的操作 1.点击 Stiemaps,在新的面板里点击 ID 为 top250 的这列数据 删除掉旧的 selector,点击 Add new selector 增加一个新的 selector 3.在新的 selector 内,注意把 Type 类型改为 Element(元素),因为在 Web Scraper Sitemap 分享: 这次的 sitemap 就分享给大家,大家可以导入到 Web Scraper 中进行实验,具体方法可以看我上一篇教程。

    1.8K30发布于 2020-07-09
  • 来自专栏超级码力

    简易数据分析 11 | Web Scraper 抓取表格数据

    下面我们写个简单的表格 Web Scraper 爬虫。 如果还报错,就试试换成英文名字: 解决报错保存成功后,我们就可以按照 Web Scraper 的爬取套路抓取数据了。 2.为什么我不建议你用 Web Scraper 的 Table Selector? 如果你按照刚刚的教程做下里,就会感觉很顺利,但是查看数据时就会傻眼了。 关于这个问题我调查了半天,应该是 Web Scraper 对中文关键字索引的支持不太友好,所以会抛出一些诡异的 bug,因此我并不建议大家用它的 Table 功能。 3.总结 我们并不建议直接使用 Web Scraper 的 Table Selector,因为对中文支持不太友好,也不太好匹配现代网页。如果有抓取表格的需求,可以用之前的创建父子选择器的方法来做。

    2K20发布于 2020-07-09
  • 来自专栏用户6291251的专栏

    零代码爬虫神器 -- Web Scraper 的使用!

    但我今天要介绍的是另外一个神器 -- Web Scraper,它是 Chrome 浏览器的一个扩展插件,安装后你可以直接在F12调试工具里使用它。 1. 安装 Web Scraper 有条件的同学,可以直接在商店里搜索 Web Scraper 安装它 没有条件的同学,可以来这个网站(https://crxdl.com/)下载 crx 文件,再离线安装, Web Scraper 使用的是 CSS 选择器来定位元素,如果你不知道它,也无大碍,在大部分场景上,你可以直接用鼠标点选的方式选中元素, Web Scraper 会自动解析出对应的 CSS 路径。 ,而 web scraper 的 Link 选择器恰好就是做这个事情的。 受限于篇幅,我尽量讲 web scraper 最核心的操作,其他的基础内容只能由大家自行充电学习了。

    2.3K10发布于 2021-12-01
  • 来自专栏Python七号

    10 分钟上手Web Scraper,从此爬虫不求人

    好东西就值得分享,本文介绍 Web Scraper 的安装和使用方法,优缺点等,让你 10 分钟就可以上手。 PS:阅读原文可以访问文中的链接。 安装 Web Scraper 是一个谷歌浏览器插件。 现在开始使用 Web Scraper: 第一步,打开谷歌浏览器的开发者工具,单击最右边的 Web Scraper 菜单,如下图所示: ? ? 点击 Start scraping 即可运行 Web Scraper,此时 Web Scraper 会打开一个新的浏览器窗口,执行按钮点击操作,并将数据保存在浏览器的 LocalStorage 中,运行结束后会自动关闭这个新窗口 优缺点 优点: Web Scraper 的优点就是不需要学习编程就可以爬取网页数据,对于非计算机专业的人可谓是爬虫不求人的利器。 不支持复杂网页抓取,比如说采取来反爬虫措施的,复杂的人机交互网页,Web Scraper 也无能为力,其实这种写代码爬取也挺难的。

    15.4K12发布于 2021-02-08
  • 来自专栏爬虫资料

    打造高效的Web Scraper:Python与Selenium的完美结合

    在数据驱动的时代,招聘信息不仅是求职者和企业之间的重要桥梁,更是洞察各行业动态的关键数据来源。BOSS直聘作为领先的招聘平台,其丰富的职位信息不仅吸引了大量用户,还为大数据分析师提供了宝贵的行业动态分析素材。然而,由于其反爬虫机制,直接抓取数据具有一定挑战性。

    44300编辑于 2025-02-17
  • 来自专栏古时的风筝

    web scraper 抓取网页数据的几个常见问题

    如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据。 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上 如果你在使用 web scraper 抓取数据,很有可能碰到如下问题中的一个或者多个,而这些问题可能直接将你计划打乱 ,甚至让你放弃 web scraper 。 web scraper 默认就是无序的,可以安装 CouchDB 来保证数据的有序性。 这里只是说了几个使用 web scraper 的过程中常见的问题,如果你还遇到了其他的问题,可以在文章下面留言。 原文地址:web scraper 抓取网页数据的几个常见问题

    3.9K20发布于 2019-05-25
  • 来自专栏古时的风筝

    web scraper 抓取数据并做简单数据分析

    其实 web scraper 说到底就是那点儿东西,所有的网站都是大同小异,但是都还不同。这也是好多同学总是遇到问题的原因。 因为没有统一的模板可用,需要理解了 web scraper 的原理并且对目标网站加以分析才可以。 今天再介绍一篇关于 web scraper 抓取数据的文章,除了 web scraper 的使用方式外,还包括一些简单的数据处理和分析。都是基础的不能再基础了。 这就给我们用 web scraper 抓数据制造了一定的麻烦,不过也很好解决。 1、创建 sitemap,设置 start url 为 https://time.geekbang.org/。 第二步,由于抓下来的课时和报名人数在同一个元素下,没办法在 web scraper 直接放到两个列,所以只能到 Excel 中处理。

    1.9K30发布于 2019-09-29
  • 来自专栏超级码力

    简易数据分析 02 | Web Scraper 的下载与安装

    我调研了很多采集数据的软件,综合评定下来发现最好用的还是 Web Scraper,这是一款 Chrome 浏览器插件。 因为 Web Scraper 是 Chrome 浏览器插件,我当然是首推使用 Chrome。 ,下载安装就好; (为了减少兼容性问题,最好安装最新版本的 Chrome 浏览器) 1.2 安装 Web Scraper 插件 可以访问外网的同学,直接访问"Chrome 网上应用店",搜索 Web Scraper 到这里我们的 Chrome 浏览器就成功安装好 Web Scraper 插件了。 插件 Mac 用户直接访问浏览器左上角的"应用中心",点击进入并搜索 Web Scraper 安装即可。

    1.6K40发布于 2020-07-09
  • 来自专栏FreeBuf

    如何使用TikTok Scraper快速收集用户发布的视频数据

    关于TikTok Scraper TikTok Scraper是一款针对TikTok的数据收集工具,该工具可以帮助广大用户从TikTok快速收集和下载各种有用的信息,其中包括视频、趋势、标签、音乐 注意:当前版本的TikTok Scraper不支持无水印下载视频。 通过NPM安装 npm i -g tiktok-scraper 通过YARN安装 yarn global add tiktok-scraper 工具使用 命令行终端 $ tiktok-scraper tiktok/video/6807491984882765062 -d tiktok-scraper history tiktok-scraper history -r user:bob tiktok-scraper history 删除单条历史记录: tiktok-scraper history -r TYPE:INPUT tiktok-scraper history -r user:tiktok tiktok-scraper

    3.9K40编辑于 2022-04-12
  • 来自专栏小徐学爬虫

    用Rust和Scraper库编写图像爬虫的建议

    本文提供一些有关如何使用Rust和Scraper库编写图像爬虫的一般建议:1、首先,你需要安装Rust和Scraper库。 你可以通过Rustup或Cargo来安装Rust,然后使用Cargo来安装Scraper库。2、然后,你可以使用Scraper库的Crawler类来创建一个新的爬虫实例。 以下是一个简单的示例代码,说明如何使用Rust和Scraper库编写一个图像爬虫:extern crate scraper;use scraper::{Crawler, Request, Scraper

    41750编辑于 2023-11-06
  • 来自专栏古时的风筝

    web scraper 抓取分页数据和二级页面内容

    欢迎关注公众号:古时的风筝 古时的风筝.jpg 如果是刚接触 web scraper 的,可以看第一篇文章。 如果你已经用过这个工具,想必已经用它抓取过一些数据了,是不是很好用呢。 而 web scraper 中提供了一种写法,可以设置页码范围及递增步长。 现在开始从头到尾介绍一下整个步骤,其实很简单: 1、在浏览器访问上面说的这个地址,然后调出 Web Scraper ,Create Sitemap ,输入一个名称和 Start URL,然后保存。

    6K20发布于 2018-07-31
  • 来自专栏超级码力

    简易数据分析 16 | Web Scraper 高级用法——抓取属性信息

    今天我们讲一个用的较少的 Web Scraper 功能——抓取属性信息。 网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息。 我们可以看一下 HTML 文档里对 alt 属性的描述: alt 属性是一个必需的属性,它规定在图像无法显示时的替代文本 在 web scraper 里,我们可以利用 Element attribute

    1.1K30发布于 2020-07-08
  • Rust中的数据抓取:代理和scraper的协同工作

    二、Rust中的scraperscraper是一个用于Rust的HTML内容抓取库,它提供了解析HTML文档和提取数据的能力。主要特性选择器:支持CSS选择器,方便定位页面元素。 四、scraper与代理的协同工作结合scraper库和代理的使用,可以实现更高效和灵活的数据抓取。实现步骤创建代理对象:根据代理服务器的IP和端口创建代理对象。 初始化scraper:使用代理对象初始化scraper,配置请求头。发送请求:向目标URL发送请求,并获取响应。解析和提取数据:使用scraper的解析功能提取所需数据。 五、示例代码以下是一个使用scraper和代理进行数据抓取的示例代码:extern crate scraper;extern crate proxy;use scraper::{HtmlScrapter 七、总结Rust结合scraper和代理的使用,为数据抓取提供了一个高效、安全、灵活的解决方案。通过本文的介绍和示例代码,读者应该能够理解如何在Rust中实现数据抓取,并注意相关的实践规范。

    70110编辑于 2024-06-20
领券