搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏python3
VII Python（7）爬虫
VII Python（7）爬虫网络爬虫（网页蜘蛛）： python访问互联网： urllib和urllib2模块（python2. [19]: 'http://www.FishC.com' In [20]: response.info() Out[20]: <httplib.HTTPMessage instanceat 0x16a7b48 Request(url,data)之后通过urllib2.Request.add_header()添加；修改User-Agent方法虽可行，但server还会根据IP访问的次数，在超过预值（阈值）会认为是网络爬虫，server会要求其填验证码之类的，若是用户可识别验证码，但以上脚本仍无法应付会被屏蔽，解决方法：（1）通过time模块延迟提交时间time.sleep(3)，让脚本代码（爬虫）看上去是人类在正常访问 /usr/bin/python2.7 举例7（使用代理访问网页）：准备（通过http://www.whatismyip.com.tw/得到当前正在使用的IP，通过http://www.xicidaili.com
57020发布于 2020-01-07
来自专栏入门到放弃之路
AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞
36氪和虎嗅网这两个网站新闻爬虫比较具有代表性，36氪是传统的html网页爬虫，虎嗅网是异步api加载加密的爬虫，这里就从简单的36氪讲起。通过python的requests模块发起请求，最后解析目标数据实现36Kr AI快讯爬虫的代码开发。 requestsfrom scrapy import Selectorheaders = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) 如图，新闻数据通过接口请求返回json的方式渲染的，而非36Kr返回的HTML，所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。结语这就是我使用爬虫爬取AI新闻的过程，使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集，还有更优的程序设计架构。
1.6K50编辑于 2024-03-12
来自专栏技术探究
爬虫系列（7）数据提取--Beautiful Soup。
官网http://beautifulsoup.readthedocs.io/zh_CN/latest/
1.8K30发布于 2019-07-10
来自专栏iSharkFly
AI Bot 爬虫新势力
对使用CloudFlare的用户，可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练，AI也需要从互联网中不断的获取内容才能对自己进行训练。针对上面的内容和数据来看，AI的爬取量比较大，可能会超过传统的搜索引擎。
11310编辑于 2025-11-13
AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫
在页面上方筛选你要查看的域名和时间范围（建议先看最近 7 天）5. 、Bytespider、CCBot、anthropic-ai 等这些是主流 AI 爬虫的标识某些 Path 的请求量异常高（如 /sitemap.xml、/feed、全站文章页）AI 爬虫倾向于先读 sitemap 二、核心操作：一键开启 AI 爬虫处置确认有 AI 爬虫活动后，接下来开启防护。：> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响> - 特征库覆盖 20+ 种主流 AI 爬虫，且持续更新> - 所有套餐（含免费版）都能用这个功能立即配置免费获取完整报告EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。
16110编辑于 2026-04-27
来自专栏嘘、小点声
python网络爬虫（7）爬取静态数据详解
lxml用于解析解析网页HTML等源码，提取数据。一些参考：https://www.cnblogs.com/zhangxinqi/p/9210211.html
60830发布于 2019-07-31
来自专栏码神联盟
网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能
网络爬虫原理网络爬虫原理： Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。 import java.util.regex.Matcher; import java.util.regex.Pattern; /** * @Auther: likang * @Date: 2018/7/ /dependency> 3：增加如下类，详解参考注释即可： import java.sql.SQLException; /** * @Auther: likang * @Date: 2018/7/ [i]).start(); } } } import java.util.LinkedList; /** * @Auther: likang * @Date: 2018/7/ String url) { return urlQueue.contains(url); } } /** * @Auther: likang * @Date: 2018/7/
6K50发布于 2018-07-30
来自专栏Python大数据分析
数据采集必备的7个低代码爬虫工具
，但无法真正开发爬虫项目。这主要是因为网络上到处是反爬虫机制，爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题，需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。为了偷点懒，我找了一些不需要代码或者低代码就可以用的爬虫软件，能点点点就配置好爬虫，非常的方便。下面是7个我常用的爬虫软件，分三大类，零代码工具、半自动化工具、低代码工具，都很好操作。它通过AI智能识别网页中的表格或列表数据（如商品价格、评论），支持一键抓取并导出为Excel/CSV文件，尤其适合亚马逊等电商平台的分页采集。它的优势是基于Python生态，灵活性高，支持分布式爬虫和异步请求，而且有多种扩展，能满足复杂采集需求，适合做企业级爬虫部署。
1.6K10编辑于 2025-08-06
来自专栏Python爬虫逆向教程
Python爬虫之自动化测试Selenium#7
爬虫专栏：http://t.csdnimg.cn/WfCSx 前言在前一章中，我们了解了 Ajax 的分析和抓取方式，这其实也是 JavaScript 动态渲染的页面的一种情形，通过直接分析 Ajax 另外，还需要正确安装好 Python 的 Selenium 库，详细的安装和配置过程可以参考Python爬虫请求库安装#1-CSDN博客 2. 通过上面的方法，我们就完成了一些常见节点的动作操作，更多的操作可以参见官方文档的交互动作介绍：7. 7. 动作链在上面的实例中，一些交互动作都是针对某个节点执行的。比如，对于输入框，我们就调用它的输入文字和清空文字方法；对于按钮，就调用它的点击方法。控制台的输出如下： No Element 关于更多的异常类，可以参考官方文档：：7.
1.6K11编辑于 2024-02-17
AI网络爬虫：搜狗图片的时间戳反爬虫应对策略
query=%E5%AD%99%E5%85%81%E7%8F%A0&mode=2翻页规律如下：https://pic.sogou.com/napi/pc/searchList? 例如，如果每页显示48张图片（由 xml_len参数决定），那么第一个URL将从第8页开始（384 / 48 = 8），第二个URL从第7页开始（336 / 48 = 7），第三个URL从第6页开始（288 c577ebdcb0f3dbcc-a5f4cbbb2bfe711fad33ce48dce150b3","index": 1,"mfid": "46ff91955836d2f8","thumbHeight": 767,"thumbWidth": 499},{"docId": "c286ca7ecc6f7a79 衣服的外层有一个以腰部为支点,斜向的X型的面料系","cutBoardInputSkin": "c24c00231bcf459d|11|1718942349116|99418a699300bedc52a7df9b832a7aa0 但是写了爬虫程序后，json数据爬取失败。仔细检查请求头，原来是里面加了时间戳：X-Time4p 是一个自定义的HTTP头部字段，通常用于传递与时间相关的信息。
1K10编辑于 2024-06-23
爬虫+动态代理助力 AI 训练数据采集
引言近年来，AI 技术飞速发展，很多朋友都投身于 AI 模型的训练。然而，相较于模型的获取，高质量的数据往往更加难以收集。借助其代理服务，我们可以显著提高爬虫程序的访问成功率，从而更高效地获取数据，助力 AI 模型的训练。维基百科是 AI 领域的重要数据来源，广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。登录以后进入控制台，点击网页抓取API，选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。 proxy = {'http': 'http://brd-customer-hl_a0a48734-zone-residential_proxy3:7sl48y9j3jfm@brd.superproxy.io
57810编辑于 2025-03-19
来自专栏ytkah
如何屏蔽各大AI公司爬虫User Agent
GPTBot GPTBot 是 OpenAI 使用的网络爬虫，用于下载 LLM（大型语言模型）的训练数据，为 ChatGPT 等人工智能产品提供支持。 cohere-ai 是一个未经确认的代理，可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。 1%的大站屏蔽了它 User-agent: cohere-ai Disallow: / Google-Extended Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫，用于其人工智能产品 0%的大站屏蔽了它 User-agent: FacebookBot Disallow: / anthropic-ai anthropic-ai 是一个未经证实的代理，可能是 Anthropic 用来下载 LLM（大型语言模型）训练数据的，比如AI产品Claude。
69710编辑于 2023-12-31
来自专栏国内互联网大数据
提高批量爬虫采集效率的7个实用技巧
批量爬虫采集是数据获取的重要手段，但如何提高其效率却是让很多程序员头疼的问题。本文将分享七个实用技巧，帮助你优化批量爬虫采集工作，提高效率和产出。 1.优化请求频率：合理设置访问频率是提高爬虫效率的关键。根据网站的响应速度和机器的承载能力，合理调整请求间隔时间，避免过于频繁或过于稀疏的请求，以达到最佳效果。 3.智能反爬应对：许多网站采取了反爬虫措施，如验证码、登录限制等。为了应对这些反爬虫机制，可以采用模拟登录、使用代理IP、操纵Cookies等方式，绕过限制，确保采集的顺利进行。通过缓存页面内容或请求结果，减轻服务器压力，并加快数据处理速度，提高批量爬虫采集效率。7.数据流水线处理：通过构建数据流水线，将采集、处理、存储等环节相互解耦，提高工作流程的效率和可维护性。以上是七个提高批量爬虫采集效率的实用技巧。通过优化请求频率、利用多线程并发、智能反爬应对、有效去重策略、异常处理机制、合理利用缓存和数据流水线处理，你可以明显提升批量爬虫采集的效率和专业度。
39440编辑于 2023-08-18
来自专栏武军超python专栏
11月7日python爬虫框架Scrapy基础知识
在F12的Network中抓包，使用json字符串运行爬虫需要安装win23 ： pip install pypiwin32 爬虫名文件中的回调函数可以自定义 items文件中可以自定义items 创建爬虫项目和创建爬虫的命令如下：以下命令中的<>在实际使用的时候不要带上 1.Scrapy创建爬虫项目的命令是： scrapy startproject <projectname> 2. Scrapy创建爬虫的命令是,在项目名称下执行：(最后那个是内置的crawl模板) scrapy genspider <爬虫名称> <目标域名> --template=crawl 3. 爬虫项目的运行命令是： win需要下载pywin32 pip install pypiwin32 scrapy crawl <爬虫名称> 创建完爬虫项目后会自动生成一个spider的文件夹，这个文件夹是用于存放爬虫的爬虫项目可以记录停止节点，方便下次继续爬取，方法是在开始运行项目的后边加一个属性JOBDIR scrapy crawl <爬虫名称> -s LOG_LEVEL=INFO -s JOBDIR=craws
53320发布于 2019-02-25
来自专栏python3
Python3网络爬虫实战-7、APP爬
MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProxy 的命令行接口，利用它我们可以对接 Python 脚本，用 Python 实现监听后的处理。另一个是 MitmWeb，它是一个 Web 程序，通过它我们可以清楚地观察到 MitmProxy 捕获的请求。本节我们来了解一下 MitmProxy、MitmDump、MitmWeb 的安装方式。
83020发布于 2020-01-03
来自专栏AllTests软件测试
Thunderbit - 新一代AI网页爬虫
而Thunderbit这款AI驱动的网页抓取工具，正以“2步操作”的极简体验，重新定义数据获取的效率，成为销售、运营及项目团队的得力助手。 2、简介 Thunderbit是一款下一代AI网页爬虫工具，核心优势在于AI驱动的智能化数据抓取，无需复杂技术操作，专为销售和运营团队设计，解决数据收集效率低的问题。（2）AI驱动的数据处理自然语言交互：用户无需掌握技术知识，只需用自然语言写下所需列名和数据类型（如“商品名称”“价格”“发布时间”），AI即可按照需求提取数据。点击AI网页爬虫，先选择数据源（当前页面、粘贴链接、文件图片），按当前页面，Thunderbit已经识别到Playground示例页面，之后选择爬虫模板，可使用AI推荐字段或者手动输入，这里点击AI推荐字段 Thunderbit支持定时爬虫。 Thunderbit支持AI自动填表。工具组件：邮箱提取器。工具组件：电话号码提取器。工具组件：图片提取器。
1.3K10编辑于 2025-11-18
来自专栏Dance with GenAI
AI网络爬虫：用deepseek批量提取天工AI的智能体数据
天工AI的智能体首页： F12查看真实网址和响应数据：翻页规律： https://work.tiangong.cn/agents_api/square/sq_list_by_category? category_id=7&offset=0 https://work.tiangong.cn/agents_api/square/sq_list_by_category? category_id=7&offset=80 https://work.tiangong.cn/agents_api/square/sq_list_by_category? category_id=7&offset=100 网站返回的是json数据： { "code": 200, "message": "success", "msg": "success", "data": , "icon": "https://static-recommend-img.tiangong.cn/ai-text-gen-image/agent-backgroud_9783755_1803007243774124032
64410编辑于 2024-07-10
来自专栏Dance with GenAI
AI网络爬虫：批量爬取AI导航网站Futurepedia数据
Futurepedia致力于使AI技术对各行各业的专业人士更加可理解和实用，提供全面的AI网站和工具目录、易于遵循的指南、每周新闻通讯和信息丰富的YouTube频道，简化AI在专业实践中的整合。如何把Futurepedia上的全部AI网站数据爬取下来呢？网站一页有12个AI工具介绍，根据网站说明：We've categorized 5571 AI tools into 10 categories.，估计一共有465页。
42110编辑于 2024-06-24
来自专栏机器学习算法与Python学习
Python：爬虫系列笔记(7) -- 爬去糗事百科段子
转自：静觅 » Python爬虫实战一之爬取糗事百科段子前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来，Python爬取糗事百科的小段子的例子。糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。 author__ = 'CQC'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport time #糗事百科爬虫类我们第一个爬虫实战项目介绍到这里，欢迎大家继续关注，小伙伴们加油！
90750发布于 2018-04-04
来自专栏爬虫资料
多模态AI爬虫：文本+图像智能抓取实战
一个AI模型训练任务引发的爬虫危机上个月，公司AI组向我们数据组提出一个“看似简单”的需求：训练一个能识别商品种类的多模态模型，数据来源不限，但要求包含图像 + 商品文本 + 价格 + 折扣信息。我心里一沉——亚马逊，图文混合，反爬一流，这可不是普通爬虫能搞定的活。多模态AI爬虫的架构搭建与实战代码我们拆解了需求，决定使用 requests + lxml + Pillow，结合爬虫代理IP服务，实现一个具备图像和文本提取能力的智能爬虫。 k={quote(keyword)}"# 设置爬虫代理（参考亿牛云爬虫加强版示例）proxies = { "http": "http://用户名:密码@代理域名:端口", "https": 这次经历也启发我们后续开发了一套自动化“关键词 → 多模态样本”生成工具，真正走上了AI时代下数据爬虫的新台阶。
49010编辑于 2025-06-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

VII Python（7）爬虫

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

爬虫系列（7）数据提取--Beautiful Soup。

AI Bot 爬虫新势力

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

python网络爬虫（7）爬取静态数据详解

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

数据采集必备的7个低代码爬虫工具

Python爬虫之自动化测试Selenium#7

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

提高批量爬虫采集效率的7个实用技巧

11月7日python爬虫框架Scrapy基础知识

Python3网络爬虫实战-7、APP爬

Thunderbit - 新一代AI网页爬虫

AI网络爬虫：用deepseek批量提取天工AI的智能体数据

AI网络爬虫：批量爬取AI导航网站Futurepedia数据

Python：爬虫系列笔记(7) -- 爬去糗事百科段子

多模态AI爬虫：文本+图像智能抓取实战

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

VII Python（7）爬虫

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

爬虫系列（7）数据提取--Beautiful Soup。

AI Bot 爬虫新势力

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

python网络爬虫（7）爬取静态数据详解

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

数据采集必备的7个低代码爬虫工具

Python爬虫之自动化测试Selenium#7

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

​爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

提高批量爬虫采集效率的7个实用技巧

11月7日python爬虫框架Scrapy基础知识

Python3网络爬虫实战-7、APP爬

Thunderbit - 新一代AI网页爬虫

AI网络爬虫：用deepseek批量提取天工AI的智能体数据

AI网络爬虫：批量爬取AI导航网站Futurepedia数据

Python：爬虫系列笔记(7) -- 爬去糗事百科段子

多模态AI爬虫：文本+图像智能抓取实战

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

爬虫+动态代理助力 AI 训练数据采集