搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏IT技术圈
练习2-10 计算分段函数 (10分)
在一行中按“f(x) = result”的格式输出，其中x与result都保留一位小数。
1.6K30发布于 2021-02-24
来自专栏入门到放弃之路
AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞
前言AI的发展日新月异，及时掌握一些AI的消息和妹子聊天时也不至于词穷（不建议和妹子聊技术）。所以这里就以36氪和虎嗅网为例，来讲一下如何爬取AI新闻消息以及数据整合。 36氪和虎嗅网这两个网站新闻爬虫比较具有代表性，36氪是传统的html网页爬虫，虎嗅网是异步api加载加密的爬虫，这里就从简单的36氪讲起。通过python的requests模块发起请求，最后解析目标数据实现36Kr AI快讯爬虫的代码开发。如图，新闻数据通过接口请求返回json的方式渲染的，而非36Kr返回的HTML，所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。结语这就是我使用爬虫爬取AI新闻的过程，使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集，还有更优的程序设计架构。
1.6K50编辑于 2024-03-12
来自专栏iSharkFly
AI Bot 爬虫新势力
对使用CloudFlare的用户，可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练，AI也需要从互联网中不断的获取内容才能对自己进行训练。针对上面的内容和数据来看，AI的爬取量比较大，可能会超过传统的搜索引擎。
11310编辑于 2025-11-13
来自专栏刷题笔记
2-10 出栈序列的合法性 (20 分)
本文链接：https://blog.csdn.net/shiliang97/article/details/101147545 2-10 出栈序列的合法性 (20 分) 给定一个最大容量为 M 的堆栈
90430发布于 2019-11-08
来自专栏cwl_Java
C++编程之美-数字之魅(代码清单2-10)
代码清单2-10 LONGLONG Sum1s(ULONGLONG n) { ULONGLONG iCount = 0; ULONGLONG iFactor = 1;
19120编辑于 2022-11-30
来自专栏Hello工控
如何用AI做工业自动化咨询系统的分身？
但是搜索和筛选的工作可以完全交给AI。筛选完成后，再根据摘要内容，选出自己觉得不错的选题，再通读下原文，然后再来写文。虽然这些可以完全交给AI，但是还不是我个人的体会，而且可能对于我个人来说并没有任何收获。 OpenCode创建我们新建一个工作的文件夹后，打开Opencode就可以开始让他去创建这个自动化采集咨询文章的系统了：输入自己的需求后，直接开干：为了丰富资料，先让他列出优质的信息源头，然后自己采用爬虫机制进行获取，最后筛选2-10篇精选内容：来源太多，也影响了实际运行的时间。后续也增加API的填写，这样方便切换AI模型进行整理和筛选。这是我们目前这个系统的现状，欢迎大家留言建议哦！
9510编辑于 2026-02-28
AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫
先说结论：如果你有一个公开可访问的网站，大概率正在被 AI 爬虫批量抓取，而你可能完全不知道。、Bytespider、CCBot、anthropic-ai 等这些是主流 AI 爬虫的标识某些 Path 的请求量异常高（如 /sitemap.xml、/feed、全站文章页）AI 爬虫倾向于先读 sitemap 二、核心操作：一键开启 AI 爬虫处置确认有 AI 爬虫活动后，接下来开启防护。：> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响> - 特征库覆盖 20+ 种主流 AI 爬虫，且持续更新> - 所有套餐（含免费版）都能用这个功能立即配置免费获取完整报告EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。
16110编辑于 2026-04-27
来自专栏码神联盟
网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能
’，网络爬虫工程师又被亲切的称之为‘虫师’。网络爬虫概述网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫原理网络爬虫原理： Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。网络爬虫工作原理：在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。控制器：控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。
6K50发布于 2018-07-30
AI网络爬虫：搜狗图片的时间戳反爬虫应对策略
但是写了爬虫程序后，json数据爬取失败。仔细检查请求头，原来是里面加了时间戳：X-Time4p 是一个自定义的HTTP头部字段，通常用于传递与时间相关的信息。
1K10编辑于 2024-06-23
爬虫+动态代理助力 AI 训练数据采集
引言近年来，AI 技术飞速发展，很多朋友都投身于 AI 模型的训练。然而，相较于模型的获取，高质量的数据往往更加难以收集。借助其代理服务，我们可以显著提高爬虫程序的访问成功率，从而更高效地获取数据，助力 AI 模型的训练。维基百科是 AI 领域的重要数据来源，广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。登录以后进入控制台，点击网页抓取API，选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上，高质量的数据是不可或缺的
57910编辑于 2025-03-19
来自专栏ytkah
如何屏蔽各大AI公司爬虫User Agent
GPTBot GPTBot 是 OpenAI 使用的网络爬虫，用于下载 LLM（大型语言模型）的训练数据，为 ChatGPT 等人工智能产品提供支持。 cohere-ai 是一个未经确认的代理，可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。 1%的大站屏蔽了它 User-agent: cohere-ai Disallow: / Google-Extended Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫，用于其人工智能产品 0%的大站屏蔽了它 User-agent: FacebookBot Disallow: / anthropic-ai anthropic-ai 是一个未经证实的代理，可能是 Anthropic 用来下载 LLM（大型语言模型）训练数据的，比如AI产品Claude。
69710编辑于 2023-12-31
技术拆解：Infoseek 舆情系统的多模态架构与实战落地
分布式爬虫集群峰值 QPS 达 10 万 +，动态 IP 池 + User-Agent 智能轮换，爬取成功率超 95%。算法层：AI 驱动智能决策多模态解析技术：视频采用 CNN 视觉提取 + OCR 识别，音频通过字节自研 ASR 转写（延迟＜100ms），图片依托 YOLO 目标检测，解析准确率 99.2%。虚假舆情识别：通过 12 项生成特征标记 AI 合成内容，水军账号识别准确率 92.8%，自动生成证据链。3. AI申诉材料生成接口def ai_appeal(content_id, appeal_type): data = { "content_id": content_id, # 舆情内容三、性能优势量化对比指标传统舆情系统Infoseek 舆情系统提升幅度情感分析准确率≤75%≥94.7%26.3%舆情响应时效1-3 小时2-10 分钟36-90 倍虚假舆情识别准确率≤70%≥92.8%
56910编辑于 2025-11-20
来自专栏AllTests软件测试
Thunderbit - 新一代AI网页爬虫
而Thunderbit这款AI驱动的网页抓取工具，正以“2步操作”的极简体验，重新定义数据获取的效率，成为销售、运营及项目团队的得力助手。 2、简介 Thunderbit是一款下一代AI网页爬虫工具，核心优势在于AI驱动的智能化数据抓取，无需复杂技术操作，专为销售和运营团队设计，解决数据收集效率低的问题。（2）AI驱动的数据处理自然语言交互：用户无需掌握技术知识，只需用自然语言写下所需列名和数据类型（如“商品名称”“价格”“发布时间”），AI即可按照需求提取数据。点击AI网页爬虫，先选择数据源（当前页面、粘贴链接、文件图片），按当前页面，Thunderbit已经识别到Playground示例页面，之后选择爬虫模板，可使用AI推荐字段或者手动输入，这里点击AI推荐字段 Thunderbit支持定时爬虫。 Thunderbit支持AI自动填表。工具组件：邮箱提取器。工具组件：电话号码提取器。工具组件：图片提取器。
1.3K10编辑于 2025-11-18
来自专栏Dance with GenAI
AI网络爬虫：用deepseek批量提取天工AI的智能体数据
天工AI的智能体首页： F12查看真实网址和响应数据：翻页规律： https://work.tiangong.cn/agents_api/square/sq_list_by_category? , "icon": "https://static-recommend-img.tiangong.cn/ai-text-gen-image/agent-backgroud_9783755_1803007243774124032
64510编辑于 2024-07-10
来自专栏Dance with GenAI
AI网络爬虫：批量爬取AI导航网站Futurepedia数据
Futurepedia致力于使AI技术对各行各业的专业人士更加可理解和实用，提供全面的AI网站和工具目录、易于遵循的指南、每周新闻通讯和信息丰富的YouTube频道，简化AI在专业实践中的整合。如何把Futurepedia上的全部AI网站数据爬取下来呢？网站一页有12个AI工具介绍，根据网站说明：We've categorized 5571 AI tools into 10 categories.，估计一共有465页。
42210编辑于 2024-06-24
来自专栏爬虫资料
多模态AI爬虫：文本+图像智能抓取实战
一个AI模型训练任务引发的爬虫危机上个月，公司AI组向我们数据组提出一个“看似简单”的需求：训练一个能识别商品种类的多模态模型，数据来源不限，但要求包含图像 + 商品文本 + 价格 + 折扣信息。我心里一沉——亚马逊，图文混合，反爬一流，这可不是普通爬虫能搞定的活。多模态AI爬虫的架构搭建与实战代码我们拆解了需求，决定使用 requests + lxml + Pillow，结合爬虫代理IP服务，实现一个具备图像和文本提取能力的智能爬虫。 k={quote(keyword)}"# 设置爬虫代理（参考亿牛云爬虫加强版示例）proxies = { "http": "http://用户名:密码@代理域名:端口", "https": 这次经历也启发我们后续开发了一套自动化“关键词 → 多模态样本”生成工具，真正走上了AI时代下数据爬虫的新台阶。
49010编辑于 2025-06-12
来自专栏Dance with GenAI
AI网络爬虫：用deepseek批量提取gptstore.ai上的gpts数据
网站首页：https://gptstore.ai/gpts/categories/finance 翻页规律如下： https://gptstore.ai/_next/data/S9vKNrHo4K82xWjuXpw-O slug=finance&page=2 https://gptstore.ai/_next/data/S9vKNrHo4K82xWjuXpw-O/en/gpts/categories/finance.json ，完成一个Python脚本编写的任务，具体步骤如下：在F盘新建一个Excel文件：gptstoreaifinancegpts20240619.xlsx 请求网址: https://gptstore.ai ", "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8", "Priority": "u=1, i", "Referer": "https://gptstore.ai 遍历页码 for page_number in range(1, 11): print(f"正在爬取第 {page_number} 页数据...") url = f"https://gptstore.ai
38710编辑于 2024-06-24
来自专栏Dance with GenAI
AI网络爬虫：对网页指定区域批量截图
10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 找到Excel文件："F:\AI 对打开的网页进行截图，截图的区域是屏幕左上角：（X: 0,y:80），屏幕右下角：（X:1495,y:987）；截图保存为png图片格式，用{pictitle}作为图片文件名，保存到文件夹：“F:\AI AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36" # 读取Excel文件 excel_path = "F:\AI 自媒体内容\课程列表.xlsx" df = pd.read_excel(excel_path) # 设置截图保存的文件夹 save_folder = "F:\AI自媒体内容\\" # 初始化undetected_chromedriver
46410编辑于 2024-06-24
来自专栏编程教程
代理IP在AI爬虫中的关键应用
在大数据时代，AI爬虫成为了获取和分析网络数据的重要工具。然而，爬虫在采集数据的过程中经常面临反爬虫机制的挑战。这时，代理IP的作用显得尤为重要。一、AI爬虫的基本原理与挑战 AI爬虫结合了传统的网页爬虫技术和人工智能算法，通过学习和适应来优化数据抓取过程。 AI爬虫使用HTML解析器提取有用的信息，并根据预设策略和AI算法确定哪些链接值得进一步抓取。然而，在实际操作中，AI爬虫面临的主要挑战之一是目标网站的反爬虫机制。三、代理IP在AI爬虫中的关键应用 1.避免IP被封禁 AI爬虫在运行过程中，很容易被目标网站检测到异常行为，从而导致IP被封禁。通过合理利用代理IP，AI爬虫能够更智能、更高效地进行数据抓取和分析，为大数据应用提供有力的支持。随着技术的不断发展，代理IP在AI爬虫中的应用将更加广泛和深入。
41410编辑于 2025-08-28
来自专栏java初学
scrapy(2)——scrapy爬取新浪微博（单机版）
图2-6 日志信息在这些输出的内容中，包含着scrapy爬虫运行的日志信息。包含 [dmoz]的那些行，那对应着爬虫的日志。我们将命令行中的日志信息保存下来，这些日志信息可以帮助我们了解爬虫的运行状态，对于分析爬虫具有很大的帮助。 ? 在这里有一些非常重要的信息，如图2-10所示： ? 图2-10 scrapy object 这些是可用的对象和函数列表。注意在之前图2-10中显示的可用的对象和函数中没有包含sel方法，所以如图2-13所示，如果我们直接使用，会报错，所以改为使用response.xpath()方法，以及与之对应的response.xpath 图3-11 执行爬虫 ⑨具体的爬虫执行过程可以从shell中看到，如图3-12所示： ?
2.6K150发布于 2018-05-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

练习2-10 计算分段函数 (10分)

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

AI Bot 爬虫新势力

2-10 出栈序列的合法性 (20 分)

C++编程之美-数字之魅(代码清单2-10)

如何用AI做工业自动化咨询系统的分身？

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

技术拆解：Infoseek 舆情系统的多模态架构与实战落地

Thunderbit - 新一代AI网页爬虫

AI网络爬虫：用deepseek批量提取天工AI的智能体数据

AI网络爬虫：批量爬取AI导航网站Futurepedia数据

多模态AI爬虫：文本+图像智能抓取实战

AI网络爬虫：用deepseek批量提取gptstore.ai上的gpts数据

AI网络爬虫：对网页指定区域批量截图

代理IP在AI爬虫中的关键应用

scrapy(2)——scrapy爬取新浪微博（单机版）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

练习2-10 计算分段函数 (10分)

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

AI Bot 爬虫新势力

2-10 出栈序列的合法性 (20 分)

C++编程之美-数字之魅(代码清单2-10)

如何用AI做工业自动化咨询系统的分身？

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

​爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

技术拆解：Infoseek 舆情系统的多模态架构与实战落地

Thunderbit - 新一代AI网页爬虫

AI网络爬虫：用deepseek批量提取天工AI的智能体数据

AI网络爬虫：批量爬取AI导航网站Futurepedia数据

多模态AI爬虫：文本+图像智能抓取实战

AI网络爬虫：用deepseek批量提取gptstore.ai上的gpts数据

AI网络爬虫：对网页指定区域批量截图

代理IP在AI爬虫中的关键应用

scrapy(2)——scrapy爬取新浪微博（单机版）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

爬虫+动态代理助力 AI 训练数据采集