搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Hank’s Blog
3-5 处理缺失值
> x <- c(1,NA,2,NA,3) > is.na(x) [1] FALSE TRUE FALSE TRUE FALSE > x[!is.na(x)] #找出不是缺失值 [1] 1 2 3 > x <- c(1,NA,2,NA,3) > y <- c("a","b",NA,"c",NA) > z <- complete.cases(x,y) #都不是缺失值的元素 > x[z] [1] 1 > y[z] [1] "a" > library(datasets) #import dat
47510发布于 2020-09-16
来自专栏NetCore 从壹开始
3-5 安装CICD管理平台：Jenkins
大家这里可以先安装gitlab工具，我就省事了，直接用gitee做源代码管理平台了。
32821编辑于 2023-01-09
来自专栏实验盒
当我用DeepSeek预测AI for BioScience未来3-5年发展趋势
预测未来3-5年AI在生物科学（AI for BioScience）的发展趋势，可以从技术突破、跨学科融合、数据驱动创新以及伦理监管等多个维度进行分析。以下是一些关键趋势的展望： 1. 药物研发的端到端AI化全流程覆盖：AI将贯穿从靶点发现、化合物生成、ADMET（毒性/代谢预测）到临床试验优化的全链条，缩短药物研发周期（目前平均10年→可能压缩至3-5年）。基因治疗递送系统：AI辅助开发更高效的病毒载体或非病毒纳米颗粒。 6. 生物伦理与可解释性挑战黑箱模型的风险：复杂AI模型的决策透明性将成监管重点，需开发生物可解释的AI（XAI）工具。全球监管协作：各国可能建立AI生物技术应用的伦理框架（如AI设计病原体的管控）。 7. 总结未来3-5年，AI将深度重构生物科学的研究范式，从“数据辅助分析”转向“主动设计创造”，并在药物研发、合成生物学、精准医疗等领域实现商业化落地。
57010编辑于 2025-02-05
来自专栏入门到放弃之路
AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞
前言AI的发展日新月异，及时掌握一些AI的消息和妹子聊天时也不至于词穷（不建议和妹子聊技术）。所以这里就以36氪和虎嗅网为例，来讲一下如何爬取AI新闻消息以及数据整合。 36氪和虎嗅网这两个网站新闻爬虫比较具有代表性，36氪是传统的html网页爬虫，虎嗅网是异步api加载加密的爬虫，这里就从简单的36氪讲起。通过python的requests模块发起请求，最后解析目标数据实现36Kr AI快讯爬虫的代码开发。如图，新闻数据通过接口请求返回json的方式渲染的，而非36Kr返回的HTML，所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。结语这就是我使用爬虫爬取AI新闻的过程，使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集，还有更优的程序设计架构。
1.6K50编辑于 2024-03-12
来自专栏叽叽西
lagou 爪哇 3-5 spring cloud (下) 笔记
为了⽀撑⽇益增⻓的庞⼤业务量，我们会使⽤微服务架构设计我们的系统，使得我们的系统不仅能够通过集群部署抵挡流量的冲击，⼜能根据业务进⾏灵活的扩展。那么，在微服务架构下，⼀次请求少则经过三四次服务调⽤完成，多则跨越⼏⼗个甚⾄是上百个服务节点。那么问题接踵⽽来：
82220编辑于 2022-05-17
来自专栏iSharkFly
AI Bot 爬虫新势力
对使用CloudFlare的用户，可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练，AI也需要从互联网中不断的获取内容才能对自己进行训练。针对上面的内容和数据来看，AI的爬取量比较大，可能会超过传统的搜索引擎。
11310编辑于 2025-11-13
AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫
先说结论：如果你有一个公开可访问的网站，大概率正在被 AI 爬虫批量抓取，而你可能完全不知道。、Bytespider、CCBot、anthropic-ai 等这些是主流 AI 爬虫的标识某些 Path 的请求量异常高（如 /sitemap.xml、/feed、全站文章页）AI 爬虫倾向于先读 sitemap 二、核心操作：一键开启 AI 爬虫处置确认有 AI 爬虫活动后，接下来开启防护。：> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响> - 特征库覆盖 20+ 种主流 AI 爬虫，且持续更新> - 所有套餐（含免费版）都能用这个功能立即配置免费获取完整报告EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。
16110编辑于 2026-04-27
研究生入局 AI Agent，不是跟风，是抓住未来 3-5 年的技术红利研究
发布于2026-05-1615:30最近在和身边做AI的同学、朋友聊天时，总能听到一个高频问题：“现在研究生做Agent，是不是已经晚了？” 研究生如果能深耕Agent架构、FunctionCalling、Skill编排、多智能体协作这些核心技术，毕业时可以直接对接AI应用开发、智能体开发、大模型应用等高薪岗位，竞争力远超普通应届生。说到底，Agent不是一阵风，而是未来3-5年AI领域最确定的技术趋势之一。对研究生来说，现在入局，不是跟风，而是抓住了一个用小成本撬动大价值的机会。
11910编辑于 2026-05-16
来自专栏PHP实战技术
3-5年的PHPer常见的面试题
看到有很多，的总结一下，比较适合有一定经验的PHPer 平时喜欢哪些php书籍及博客？CSDN、虎嗅、猎云 js闭包是什么，原型链了不了解？ for与foreach哪个更快？ php鸟哥是谁？能不能讲
1.5K100发布于 2018-03-09
来自专栏码神联盟
网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能
’，网络爬虫工程师又被亲切的称之为‘虫师’。网络爬虫概述网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫原理网络爬虫原理： Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。网络爬虫工作原理：在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。控制器：控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。
6K50发布于 2018-07-30
来自专栏cwl_Java
C++编程之美-结构之法(代码清单3-5)
代码清单3-5 void RecursiveSearch(int* number, int* answer, int index, int n) { if(index == n)
24620编辑于 2022-11-30
AI网络爬虫：搜狗图片的时间戳反爬虫应对策略
但是写了爬虫程序后，json数据爬取失败。仔细检查请求头，原来是里面加了时间戳：X-Time4p 是一个自定义的HTTP头部字段，通常用于传递与时间相关的信息。
1K10编辑于 2024-06-23
来自专栏跟着官方文档学小程序开发
第二章小程序开发指南3-5
在本章会介绍小程序的基本开发流程，结合前面章节的知识，完全可以独立完成一个体验很完善的小程序。为了让开发者更加了解小程序开发，在本章中还会通过常见的一些应用场景介绍小程序API的一些细节以及开发的一些技巧和注意事项。
33810编辑于 2025-08-25
来自专栏AI机器学习与深度学习算法
机器学习入门 3-5 Numpy数组(和矩阵)的基本操作
shape 属性查看数组的维度，返回值是一个元组，元组中对应位置的值为数组中对应维度的元素个数。
78910编辑于 2022-05-25
来自专栏AI研习社
未来 3-5 年内，哪个方向的机器学习人才最紧缺？
所以以 3-5 年的跨度来看，这些工具依然会非常有用，甚至像 CNN 和 LSTM 之类的深度学习算法还在继续发展迭代当中。
68460发布于 2018-03-19
爬虫+动态代理助力 AI 训练数据采集
引言近年来，AI 技术飞速发展，很多朋友都投身于 AI 模型的训练。然而，相较于模型的获取，高质量的数据往往更加难以收集。借助其代理服务，我们可以显著提高爬虫程序的访问成功率，从而更高效地获取数据，助力 AI 模型的训练。维基百科是 AI 领域的重要数据来源，广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。登录以后进入控制台，点击网页抓取API，选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上，高质量的数据是不可或缺的
57910编辑于 2025-03-19
来自专栏ytkah
如何屏蔽各大AI公司爬虫User Agent
GPTBot GPTBot 是 OpenAI 使用的网络爬虫，用于下载 LLM（大型语言模型）的训练数据，为 ChatGPT 等人工智能产品提供支持。 cohere-ai 是一个未经确认的代理，可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。 1%的大站屏蔽了它 User-agent: cohere-ai Disallow: / Google-Extended Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫，用于其人工智能产品 0%的大站屏蔽了它 User-agent: FacebookBot Disallow: / anthropic-ai anthropic-ai 是一个未经证实的代理，可能是 Anthropic 用来下载 LLM（大型语言模型）训练数据的，比如AI产品Claude。
69710编辑于 2023-12-31
IP代理爬虫：爬平台数据时怎样绕过验证码
IP代理爬虫采集遇到验证码是很常见的问题，有时刚爬几条就弹验证码，输完验证码没爬 10 条又弹，甚至直接封 IP。分享几个能有效减少、应对验证码的方法。可以参照以下方法调整节奏：① 先请求平台首页，停留 3-5 秒再进列表页；② 列表页每次滑动只爬 3-5 条（模拟用户翻页），翻页后停留 2-4 秒（随机，不是固定值）；③ 详情页看完后，偶尔回退到列表页这些服务的逻辑是：把验证码图片传给打码平台，平台的人工或 AI 会识别结果，再返回给你的爬虫，整个过程 10-30 秒，单次成本几分钱。一旦检测到验证码弹出，先让爬虫暂停 10-15 分钟（模拟用户休息）；暂停期间，切换到 IP 池里的新 IP；重新请求时，先用新 IP 访问平台首页，确认能正常加载再继续爬。其实平台的验证码，本质是 “提醒你操作异常”，只要你的爬虫行为足够像正常用户，配合合理的应对方法，就能大幅减少验证码的困扰。合适的IP代理+以上方法，相信你的爬虫采集工作一定会事半功倍。
1K10编辑于 2025-08-22
来自专栏AllTests软件测试
Thunderbit - 新一代AI网页爬虫
而Thunderbit这款AI驱动的网页抓取工具，正以“2步操作”的极简体验，重新定义数据获取的效率，成为销售、运营及项目团队的得力助手。 2、简介 Thunderbit是一款下一代AI网页爬虫工具，核心优势在于AI驱动的智能化数据抓取，无需复杂技术操作，专为销售和运营团队设计，解决数据收集效率低的问题。（2）AI驱动的数据处理自然语言交互：用户无需掌握技术知识，只需用自然语言写下所需列名和数据类型（如“商品名称”“价格”“发布时间”），AI即可按照需求提取数据。点击AI网页爬虫，先选择数据源（当前页面、粘贴链接、文件图片），按当前页面，Thunderbit已经识别到Playground示例页面，之后选择爬虫模板，可使用AI推荐字段或者手动输入，这里点击AI推荐字段 Thunderbit支持定时爬虫。 Thunderbit支持AI自动填表。工具组件：邮箱提取器。工具组件：电话号码提取器。工具组件：图片提取器。
1.3K10编辑于 2025-11-18
来自专栏Dance with GenAI
AI网络爬虫：用deepseek批量提取天工AI的智能体数据
天工AI的智能体首页： F12查看真实网址和响应数据：翻页规律： https://work.tiangong.cn/agents_api/square/sq_list_by_category? , "icon": "https://static-recommend-img.tiangong.cn/ai-text-gen-image/agent-backgroud_9783755_1803007243774124032
64510编辑于 2024-07-10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

3-5 处理缺失值

3-5 安装CICD管理平台：Jenkins

当我用DeepSeek预测AI for BioScience未来3-5年发展趋势

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

lagou 爪哇 3-5 spring cloud (下) 笔记

AI Bot 爬虫新势力

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

研究生入局 AI Agent，不是跟风，是抓住未来 3-5 年的技术红利研究

3-5年的PHPer常见的面试题

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

C++编程之美-结构之法(代码清单3-5)

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

第二章小程序开发指南3-5

机器学习入门 3-5 Numpy数组(和矩阵)的基本操作

未来 3-5 年内，哪个方向的机器学习人才最紧缺？

爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

IP代理爬虫：爬平台数据时怎样绕过验证码

Thunderbit - 新一代AI网页爬虫

AI网络爬虫：用deepseek批量提取天工AI的智能体数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

3-5 处理缺失值

3-5 安装CICD管理平台：Jenkins

当我用DeepSeek预测AI for BioScience未来3-5年发展趋势

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

lagou 爪哇 3-5 spring cloud (下) 笔记

AI Bot 爬虫新势力

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

研究生入局 AI Agent，不是跟风，是抓住未来 3-5 年的技术红利研究

3-5年的PHPer常见的面试题

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

C++编程之美-结构之法(代码清单3-5)

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

第二章 小程序开发指南3-5

机器学习入门 3-5 Numpy数组(和矩阵)的基本操作

未来 3-5 年内，哪个方向的机器学习人才最紧缺？

​爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

IP代理爬虫：爬平台数据时怎样绕过验证码

Thunderbit - 新一代AI网页爬虫

AI网络爬虫：用deepseek批量提取天工AI的智能体数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第二章小程序开发指南3-5

爬虫+动态代理助力 AI 训练数据采集