搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈开发日记
【分享】抓取浏览器HTTPS请求数据
2、浏览器安装证书这里以Edge浏览器为例，打开浏览器设置并搜索证书设置项，将刚刚导出到桌面的证书导入即可，界面如下图所示。在配置完后需要重启浏览器和Fiddler才可以生效。保持Fiddler工具所在PC与手机所在同一局域网，并在手机浏览器访问Fiddler工具所在IP+端口号，正常情况下可以看到以下界面。
91230编辑于 2023-10-08
2025年五大优秀抓取浏览器
抓取浏览器通常会自动执行这些步骤，提供更高效、更可靠的抓取流程。如何选择网页抓取工具访问网络数据的方法有很多。但是，如果您没有编程技能，您可能需要花费一些时间来习惯它，然后才能创建一个网页抓取机器人。为什么抓取浏览器可以增强您的工作？抓取浏览器（例如 Puppeteer、Playwright 等）可以显著提高网页爬取效率，原因如下：支持动态内容: 抓取浏览器通过提供完整的浏览器渲染能力，可以处理使用 JavaScript 动态生成的页面内容高并发支持: 一些抓取浏览器（例如 Browserless）还提供云服务，支持高并发爬取和大规模数据收集，适用于需要处理大量数据的场景。最后的想法哪种网页抓取工具最适合您，抓取浏览器还是抓取扩展程序？您肯定希望使用最方便、最高效的工具来快速进行网页抓取。抓取浏览器 使网页抓取变得简单高效。通过绕过 CAPTCHA 和智能 IP 轮换，您可以避免网站封锁并轻松实现数据抓取。
54810编辑于 2025-04-24
来自专栏网络安全攻防
【神兵利器】红队360浏览器密码抓取工具
项目介绍红队一键辅助抓取360安全浏览器密码的CobaltStrike脚本以及解密小工具，用于节省红队工作量，通过下载浏览器数据库、记录密钥来离线解密浏览器密码 360SafeBrowsergetpass.cna 主要用与记录解密所需要的信息用于离线解密，3Bpass主要用于解密浏览器密码，支持本机自动导出以及离线解密基本用法 Aggressor scripts 搜集信息加载Aggressor scripts 后，beacon右键打开菜单执行SafeBrowsergetpass即可执行后将下载浏览器数据库，记录密钥MachineGuid到Credential Bpass解密数据库 3Bpass使用C#编写，
50000编辑于 2025-01-09
来自专栏爬虫资料
使用Selenium与WebDriver实现跨浏览器自动化数据抓取
为了应对不同浏览器环境下的兼容性问题，Selenium与WebDriver成为了开发者实现跨浏览器自动化数据抓取的首选工具。本文将深入探讨如何利用Selenium和WebDriver实现跨浏览器的数据抓取，并结合代理IP技术提升数据抓取的稳定性与效率。 WebDriver是Selenium的一部分，支持多种浏览器（如Chrome、Firefox、Edge等）的自动化操作，使得开发者能够在不同的浏览器中执行一致的数据抓取流程。实现跨浏览器自动化抓取的代码以下为使用Selenium与WebDriver实现的跨浏览器数据抓取代码，结合代理IP、user-agent和cookie的设置。结论通过Selenium与WebDriver，我们能够轻松实现跨浏览器的数据抓取，并通过使用代理IP、设置user-agent与cookie等技术，提升了爬虫的稳定性和隐蔽性。
76510编辑于 2024-09-09
应对反爬：使用Selenium模拟浏览器抓取12306动态旅游产品
本文将详细介绍如何使用Selenium模拟真实浏览器行为，有效绕过这些限制，成功抓取12306旅游产品数据。 User-Agent、Referer等头部信息行为分析：检测鼠标移动、点击模式等人类特征IP限制：频繁请求会导致IP地址被暂时封锁Selenium技术简介Selenium是一个自动化Web测试工具，但其浏览器自动化能力使其成为应对反爬策略的利器：真实浏览器环境：完全模拟用户操作，生成合法流量模式JavaScript执行：能够处理动态加载内容元素交互：可以模拟点击、输入等用户行为跨平台支持：支持Chrome、Firefox、Edge等主流浏览器环境准备与配置所需工具和库安装首先确保安装以下 Python库：bashpip install selenium beautifulsoup4 pandas webdriver-managerWebDriver管理Selenium需要对应浏览器的驱动程序 return f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"def setup_driver(): """设置带代理的浏览器实例
59110编辑于 2025-09-04
来自专栏从零开始学自动化测试
mitmproxy 抓包神器-1.环境准备与抓取浏览器请求
mitmweb 是用于 mitmproxy 的基于 Web 的界面，提供一个可视化界面帮助我们查看抓取的请求，可以修改返回内容。 http://127.0.0.1:8081/,显示如下抓浏览器请求 mitmproxy 默认监听的端口是 8080 端口，所以需要在浏览器上设置代理开启代理，设置监听8080端口，点保存按钮 Mac 电脑端的配置接下来浏览器访问一个http的请求，就可以捕获到了打开百度https://www.baidu.com 页面是 https 请求，默认不会抓取抓取https 请求当打开一个 https 请求时，页面上出现”您的连接不是私密连接” mitmproxy 默认只抓取http的请求，https 的请求需要安装证书。下一步 5.点完成 6.导入成功点确定以上证书安装完成后，重新访问百度页面就可以抓包成功了那就意味着浏览器上的所有https 请求都可以抓到了。
2.3K20编辑于 2023-01-03
“所见即所爬”：使用Pyppeteer无头浏览器抓取动态壁纸
在数据抓取的领域中，我们常常会遇到一个棘手的难题：许多现代网站大量使用JavaScript在用户浏览器中动态地渲染内容。此时，"无头浏览器"（Headless Browser）技术便成为了破解这一困境的钥匙。它实现了"所见即所爬"的愿景，让你能抓取到任何在真实浏览器中能看到的内容。一、为何选择Pyppeteer？逐个进入详情页，抓取高清壁纸资源（图片或视频）的真实URL。下载资源并保存到本地。它完美地模拟了真实用户的行为：访问页面、滚动、点击、在新标签页中打开链接，最终精准地抓取到了由JavaScript动态生成的壁纸资源地址。
46010编辑于 2025-09-11
用 OpenClaw 浏览器自动化突破边界抓取数据
OpenClaw 作为一款浏览器自动化工具，通过模拟真实用户行为，提供了一种在无 API 环境下突破边界的有效方案。为什么选择浏览器自动化？而 OpenClaw 此类工具的核心在于Headless Browser（无头浏览器）技术。它不仅仅是下载代码，而是完整渲染页面，像真实用户一样点击按钮、滚动页面、等待 AJAX 加载。部署环境与资源规划运行浏览器自动化任务是资源密集型操作。每一个 OpenClaw 实例在后台调用 Chromium 内核时，都会占用显著的 CPU 和内存资源。为了保障 7x24 小时稳定抓取，服务器部署是必选项。数据清洗与导出 OpenClaw 抓取到的原始数据通常包含大量换行符和空格。
2.4K30编辑于 2026-03-06
来自专栏数据小魔方
左手用R右手Python系列——动态网页抓取与selenium驱动浏览器
关于基础的网络数据抓取相关内容，本公众号已经做过很多次分享，特别是R语言的爬虫框架（RCurl+XML/httr+rvest[xml2+selectr]）已经形成了较为丰富的教程系统。但是所有这些都是基于静态页面的（抓包与API访问的除外），很多动态网页不提供API访问，这样就只能寄希望于selenium这种基于浏览器驱动技术来完成。 浏览器测试成功，我还没有试过，这里改用plantomjs无头浏览器(无需考虑元素是否被窗口遮挡的问题。) ： #自动化抓取函数： myresult<-function(remDr,url){ ###初始化一个数据框，用作后期收据收集之用！ myresult<-data.frame() ###调用后台浏览器（因为是plantomjs这种无头浏览器（headless），所以你看不到弹出窗口） remDr$open()
2.8K100发布于 2018-04-12
来自专栏全栈程序员必看
Python抓取数据_python抓取游戏数据
抓取策略确定目标：确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。分析目标：分析要抓取的url的格式，限定抓取范围。分析要抓取的数据的格式，本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式，在网页解析器部分，要指定网页编码，然后才能进行正确的解析。执行爬虫：进行数据抓取。分析目标 1、url格式进入百度百科python词条页面，页面中相关词条的链接比较统一，大都是/view/xxx.htm。
2.8K30编辑于 2022-09-20
来自专栏小狐狸说事
蜘蛛抓取策略分析：防止重复抓取
蜘蛛抓取策略分析：防止重复抓取 ---- 蜘蛛抓取策略分析：防止重复抓取前言: 不重复抓取？有很多初学者可能会觉得。爬虫不是有深度优先和广度优先两种抓取策略吗？也从而延伸出今天的这篇文章，不重复抓取策略，以说明在一定时间内的爬虫抓取是有这样规则的。正文: 回归正题，不重复抓取，就需要去判断是否重复。当然爬取（理解为发现链接）与抓取（理解为抓取网页）是同步进行的。一个发现了就告诉了另外一个，然后前面的继续爬，后面的继续抓。抓取完了就存起来，并标记上，如上图，我们发现第2条记录和第6条记录是重复的。那么当爬虫抓取第二条后，又爬取到了第6条就发现这条信息已经抓取过了，那么就不再抓取了。爬虫不是尽可能抓更多的东西吗？而本身搜索引擎的爬取和抓取都是需要执行一段代码或一个函数。执行一次就代表着要耗费一丁点资源。如果抓取的重复量级达到百亿级别又会让爬虫做多少的无用功？耗费搜索引擎多大的成本？
1.1K20编辑于 2022-11-17
来自专栏企鹅号快讯
左手用R右手Python系列——动态网页抓取与selenium驱动浏览器
但是所有这些都是基于静态页面的（抓包与API访问的除外），很多动态网页不提供API访问，这样就只能寄希望于selenium这种基于浏览器驱动技术来完成。在介绍案例之前，请确保系统具备以下条件：本地有selenium服务器并添加系统路径；本地有plantomjs浏览器并添加系统路径；安装了RSelenium包。因为涉及到自动化点击操作，Chrome浏览器倒腾一下午硬是在点击环节出故障，找到了原因，因为拉勾网页面很长，而下一页按钮不在默认视窗范围内，使用了js脚本控制滑动条失败，原因不明，看到有人用firefox 浏览器测试成功，我还没有试过，这里改用plantomjs无头浏览器(无需考虑元素是否被窗口遮挡的问题。) R语言版：启动服务构建自动化抓取函数：运行抓取函数 Python：启动服务构建抓取函数运行抓取程序
1.9K80发布于 2018-01-03
来自专栏Hank’s Blog
抓取模板
import pandas as pd from lxml import etree import json,requests,random import os,time,shutil,traceback def get_data(url, headers): try: store_res = requests.get(url=url, headers=headers) if store_res.status_code == 200: jda
88620发布于 2020-09-17
来自专栏猿人谷
网页抓取
之前做聊天室时，由于在聊天室中提供了新闻阅读的功能，写了一个从网页中抓取信息（如最新的头条新闻，新闻的来源，标题，内容等）的类，本文将介绍如何使用这个类来抓取网页中需要的信息。 else { break; } } return tags; } 有了以上函数，就可以提取需要的HTML标志了，要实现抓取 response.CharacterSet).GetString(buffer.GetBuffer()); } catch { return String.Empty; } } 以下以抓取博客园首页的文章标题和链接为例，介绍如何使用HtmlTag类来抓取网页信息： class Program { static void Main(string[] args) { String html
2.9K80发布于 2018-01-17
来自专栏小孟开发笔记
PHP登入网站抓取并且抓取数据
有时候需要登入网站，然后去抓取一些有用的信息，人工做的话，太累了。有的人可以很快的做到登入，但是需要在登入后再去访问其他页面始终都访问不了，因为他们没有带Cookie进去而被当做是两次会话。
2.3K30编辑于 2023-02-20
来自专栏趣谈前端
30分钟开发一款抓取网站图片资源的浏览器插件
你将收获如何快速上手浏览器插件开发 浏览器插件开发的核心概念 浏览器插件的通信机制 浏览器插件的数据存储 浏览器插件的应用场景开发一款抓取网站图片资源的浏览器插件正文在开始正文之前,我们先来看看笔者总结的概览要想开发一款浏览器插件,我们只需要有一个manifest.json文件即可, 为了快速上手浏览器插件开发,我们需要把浏览器开发者工具打开, 具体步骤如下: 在谷歌浏览器中输入chrome://extensions 导入自己的浏览器插件包通过以上三个步骤我们就可以开启浏览器插件开发之旅了.浏览器插件一般放在浏览器地址栏右侧,我们可以在manifest.json文件配置插件的icon,并配置一定的规则,就能看到我们的浏览器插件图标了 3.通信机制对于一个相对复杂的浏览器插件来说,我们不仅仅只操作dom或者提供基本的功能就行了,我们还需要向第三方或者自己的服务器抓取有用的页面数据,这个时候就需要用到插件的通信机制了. 6.开发一款抓取网站图片资源的浏览器插件首先还是按照笔者的风格，在开发任何一种工具之前都要明确需求，所以我们来看看该插件的功能点：能植入网页按钮，通过点击按钮捕获网页图片能在用户端展示捕获的图片
1.6K10发布于 2020-04-23
来自专栏Web技术布道师
搭建谷歌浏览器无头模式抓取页面服务，laravel->php->python->docker
实现过程： laravel版项目是使用laravel开发，首先想到的是集成到框架里，而laravel确实提供了相关组件：Laravel Dusk 虽然这个插件是用来做浏览器测试的，但这里也可以用来爬取页面原来运维为了保证服务器能兼容低版本的软件，C的依赖版本安装的很低，这么底层的依赖还是不要动了，解决方案有两个： 1找台服务器安装高版本的GLIBC_2.14,GLIBC_2.16； 2把爬虫这块封装到docker里面，对外提供抓取服务，就是到时候直接请求下接口，接口放回抓取的企业微信页面因为公司有k8s集群，所以直接build一个docker更简单一点，所以选取方案2 Python docker 版使用docker那就尽量简单点后面只要是处理一下业务相关的东西，比如拓展app.py的功能，使其支持更多的操作总结下来就是使用docker部署了一个服务，该服务接收登录cookie,url,配置等参数，使用chrome的headless模式抓取页面操作页面，返回结果，拓展浏览器操作可以写在app.py中
3K20发布于 2019-08-06
来自专栏数据挖掘
CSDN文章抓取
在抓取网页的时候只想抓取主要的文本框，例如 csdn 中的主要文本框为下图红色框： ? 抓取的思想是，利用 bs4 查找所有的 div，用正则筛选出每个 div 里面的中文，找到中文字数最多的 div 就是属于正文的 div 了。定义一个抓取的头部抓取网页内容： import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)
1.2K20发布于 2019-07-02
来自专栏Java架构师必看
网页抓取类
// --需要引用 using System.Net 以及 using System.IO; private string GetContentFromUrll( string _requestUrl) { string _StrResponse = "" ; HttpWebRequest _WebRequest = ( HttpWebRequest )WebRequest.Create( _requestUrl ); _WebRequest.Method = " GET " ; WebResponse _WebResponse = _WebRequest.GetResponse(); StreamReader _ResponseStream = new StreamReader( _WebResponse.GetResponseStream(), System.Text.Encoding.GetEncoding( " gb2312 " )); _StrResponse = _ResponseStream.ReadToEnd(); _WebResponse.Close(); _ResponseStream.Close(); return _StrResponse; }
1.5K20发布于 2021-03-22
来自专栏火丁笔记
实战Guzzle抓取
虽然早就知道很多人用 Guzzle 爬数据，但是我却从来没有真正实践过，因为在我的潜意识里，抓取是 Python 的地盘。不过前段时间，当我抓汽车之家数据的时候，好心人跟我提起 Goutte 搭配 Guzzle 是最好的爬虫，让我一直记挂在心上，加上最近打算更新一下车型数据，于是我便重写了抓取汽车之家数据的脚本。因为我是通过接口抓取，而不是网页，所以暂时用不上 Goutte，只用 Guzzle 就可以了，抓取过程中需要注意两点：首先需要注意的是通过并发节省时间，其次需要注意的是失败重试的步骤。运行前记得先通过 composer 安装 guzzle，整个运行过程大概会执行三万次抓取请求，可以抓取汽车之家完整的品牌，车系，车型及配置等相关数据，总耗时大概十分钟左右，效率还是可以接受的。
1.2K30编辑于 2021-12-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【分享】抓取浏览器HTTPS请求数据

2025年五大优秀抓取浏览器

【神兵利器】红队360浏览器密码抓取工具

使用Selenium与WebDriver实现跨浏览器自动化数据抓取

应对反爬：使用Selenium模拟浏览器抓取12306动态旅游产品

mitmproxy 抓包神器-1.环境准备与抓取浏览器请求

“所见即所爬”：使用Pyppeteer无头浏览器抓取动态壁纸

用 OpenClaw 浏览器自动化突破边界抓取数据

左手用R右手Python系列——动态网页抓取与selenium驱动浏览器

Python抓取数据_python抓取游戏数据

蜘蛛抓取策略分析：防止重复抓取

左手用R右手Python系列——动态网页抓取与selenium驱动浏览器

抓取模板

网页抓取

PHP登入网站抓取并且抓取数据

30分钟开发一款抓取网站图片资源的浏览器插件

搭建谷歌浏览器无头模式抓取页面服务，laravel->php->python->docker

CSDN文章抓取

网页抓取类

实战Guzzle抓取

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐