搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI机器学习与深度学习算法
机器学习入门 4-5 超参数
通过前面的小节，我们知道了kNN算法中k这个参数值，在sklearn中k这个值被封装成了k_neighbors参数。在前面我们随机的指定参数k的值，究竟k的值为多少的时候，模型才是最好的呢？这就涉及到了机器学习领域非常重要的问题~超参数问题。
75130发布于 2019-11-13
来自专栏Hank’s Blog
4-5 R语言函数 split
#split根据因子或因子列表将向量或其他对象分组 #通常与lapply一起使用 #split(参数):split(向量/列表/数据框,因子/因子列表) > x <- c(rnorm(5),runif(5),rnorm(5,1)) > x [1] 0.61008707 0.81746169 -1.09859969 -1.78134612 -1.94262725 0.99760581 [7] 0.37793960 0.05258653 0.38525197 0.46051864 -0.
88540发布于 2020-09-16
来自专栏大前端_Web
javascript高级程序设计(4-5)章笔记
版权声明：本文为吴孔云博客原创文章，转载请注明出处并带上链接，谢谢。 https://blog.csdn.net/wkyseo/article/details/51234909
69440发布于 2018-09-27
来自专栏入门到放弃之路
AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞
前言AI的发展日新月异，及时掌握一些AI的消息和妹子聊天时也不至于词穷（不建议和妹子聊技术）。所以这里就以36氪和虎嗅网为例，来讲一下如何爬取AI新闻消息以及数据整合。 36氪和虎嗅网这两个网站新闻爬虫比较具有代表性，36氪是传统的html网页爬虫，虎嗅网是异步api加载加密的爬虫，这里就从简单的36氪讲起。通过python的requests模块发起请求，最后解析目标数据实现36Kr AI快讯爬虫的代码开发。如图，新闻数据通过接口请求返回json的方式渲染的，而非36Kr返回的HTML，所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。结语这就是我使用爬虫爬取AI新闻的过程，使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集，还有更优的程序设计架构。
1.6K50编辑于 2024-03-12
来自专栏运维之路
【每日一思】2022年第4-5周
一直认为理想情况下的数据运营方法应该基于“贴源层数据-》指标（至少到带有主题的流水）-》洞察-》决策-》执行”的路线，这样才能减少返工的重复性工作量。
26420编辑于 2022-03-07
来自专栏iSharkFly
AI Bot 爬虫新势力
对使用CloudFlare的用户，可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练，AI也需要从互联网中不断的获取内容才能对自己进行训练。针对上面的内容和数据来看，AI的爬取量比较大，可能会超过传统的搜索引擎。
11310编辑于 2025-11-13
来自专栏iOS面试
iOS 面试策略之算法基础4-5节
前面介绍了数组、字典、字符串、链表、栈、队列的处理和应用方法。本节将会探讨平常相对很少用到、面试中却是老面孔的数据结构：二叉树。本节主要包括以下内容：
1.1K60发布于 2021-04-20
来自专栏NetCore 从壹开始
4-5 安装并迁移数据库：mysql
docker volume create volume_name命令新建一个数据卷
83020编辑于 2023-01-09
来自专栏CDA数据分析师
人工智能浪潮前，从娃娃开始抓起的Python该怎么学？
未来已来如同互联网发展的浪潮，AI正在创造一个全新的世界。面对AI发展的新浪潮，越来越多的人开始涉足AI领域，研究AI知识，跨入AI大门。而Python，Python作为2017年最受欢迎的人工智能编程语言，可以说是 AI 时代头牌语言，是进入AI领域的敲门砖。 ? 有学习Python的系统规划在此，C君以CDA数据分析研究院的Python学习大纲为基准，给大家简单提供一个学习规划：第一阶段：Python概述与基础主要是关于Python学习的基础和介绍，建议用时4- 5天第二阶段：Python数据清洗主要包括Numpy数组和矢量计算等与Pandas基础&进阶，建议用时3-4天第三阶段：Python爬虫主要学习Python爬虫的知识以及实践等，建议用时2-3天第四阶段：Python机器学习主要是关于Python机器学习的一些经典算法与案例实战，建议用时4-5天
1.2K80发布于 2018-02-05
AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫
先说结论：如果你有一个公开可访问的网站，大概率正在被 AI 爬虫批量抓取，而你可能完全不知道。、Bytespider、CCBot、anthropic-ai 等这些是主流 AI 爬虫的标识某些 Path 的请求量异常高（如 /sitemap.xml、/feed、全站文章页）AI 爬虫倾向于先读 sitemap 二、核心操作：一键开启 AI 爬虫处置确认有 AI 爬虫活动后，接下来开启防护。：> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响> - 特征库覆盖 20+ 种主流 AI 爬虫，且持续更新> - 所有套餐（含免费版）都能用这个功能立即配置免费获取完整报告EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。
16110编辑于 2026-04-27
来自专栏AI SPPECH
IO竞赛2025年题目解析：基础级难度（4-5）
2025年的IO竞赛基础级（难度系数4-5）题目开始涉及更多的数据结构和算法思想，对选手的编程能力和逻辑思维提出了更高的要求。难度进阶路径: 入门(1-3) → 基础(4-5) → 提高(6-8) → 竞赛(9-10) 难度系数考察重点核心知识点学习目标 4-5 数据结构、算法应用栈、队列、树、图的基础应用掌握基础数据结构的使用和简单算法的实现） ├── 第四章：基础级题目解题技巧总结 └── 第五章：从基础到提高的学习建议第一章：2025年IO竞赛基础级题目概述根据2025年NOI修订版大纲，基础级（CSP-J提高）的知识点难度系数为4-
32210编辑于 2025-11-13
来自专栏跟着官方文档学小程序开发
第二章小程序开发指南4-5
小程序经常需要向服务器传递数据或者从服务器拉取数据，这个时候可以使用wx.request这个API，在本章节会重点讨论wx.request的使用和注意事项。
59310编辑于 2025-08-25
来自专栏码神联盟
网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能
’，网络爬虫工程师又被亲切的称之为‘虫师’。网络爬虫概述网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫原理网络爬虫原理： Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。网络爬虫工作原理：在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。控制器：控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。
6K50发布于 2018-07-30
Goal-Driven 优于 Task-Driven：你用 Agent 的方式可能完全错了
你每天花多少时间"教" AI 做事？打开 ChatGPT，输入"帮我写个爬虫"，它问你爬什么。你说爬股票数据，它问从哪个网站。你说从东方财富，它问要哪些字段。他不告诉 AI 做什么，他告诉 AI 他想达成什么。具体怎么做？他把自己所有的目标——职业的、个人的、长期的、短期的——一股脑倾泻给 AI。然后设定一个规则：每天早上 8 点，AI 自己想出 4-5 个能推进这些目标的任务，然后自己执行。他叫这个 Brain Dump 模式。我的目标： - YouTube 涨到 10 万订阅 - 在 Q3 前发布我的 SaaS 产品 - 每月读两本书 - 自动化工作流程里的重复性工作你每天早上 8 点自己想出 4-5 个能推进这些目标的任务比如：不说"帮我写个邮件催款"，说"我想在不伤害关系的前提下让客户尽快付款，你觉得怎么沟通" 不说"帮我写个爬虫"，说"我想每天自动获取北交所所有股票的关键数据，存到数据库里，你怎么设计" 让
32210编辑于 2026-03-04
AI网络爬虫：搜狗图片的时间戳反爬虫应对策略
但是写了爬虫程序后，json数据爬取失败。仔细检查请求头，原来是里面加了时间戳：X-Time4p 是一个自定义的HTTP头部字段，通常用于传递与时间相关的信息。
1K10编辑于 2024-06-23
来自专栏前端说吧
flag - 4-5月份预整理总结的文章目录
关于echarts各种稀奇古怪让人想骂niang地需求的配置 js-sdk微信分享时，动态url的设置基于ajax渲染模板的二级/多级自定义联动下拉功能封装，一个基于promise的ajax异步请求函数封装，不用再写那么多遍的if result === 1啦！ css-移动端h5在iphonex的适配 vuex的使用步骤梳理，轻松掌握。附源码使用vue实现自定义多选与单选的答题功能 vue中使用axios，实现向请求头中传递cookie值 vue中，mode为history时，build打包后页面空白
72330发布于 2018-06-25
爬虫+动态代理助力 AI 训练数据采集
引言近年来，AI 技术飞速发展，很多朋友都投身于 AI 模型的训练。然而，相较于模型的获取，高质量的数据往往更加难以收集。借助其代理服务，我们可以显著提高爬虫程序的访问成功率，从而更高效地获取数据，助力 AI 模型的训练。维基百科是 AI 领域的重要数据来源，广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。登录以后进入控制台，点击网页抓取API，选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上，高质量的数据是不可或缺的
57910编辑于 2025-03-19
来自专栏ytkah
如何屏蔽各大AI公司爬虫User Agent
GPTBot GPTBot 是 OpenAI 使用的网络爬虫，用于下载 LLM（大型语言模型）的训练数据，为 ChatGPT 等人工智能产品提供支持。 cohere-ai 是一个未经确认的代理，可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。 1%的大站屏蔽了它 User-agent: cohere-ai Disallow: / Google-Extended Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫，用于其人工智能产品 0%的大站屏蔽了它 User-agent: FacebookBot Disallow: / anthropic-ai anthropic-ai 是一个未经证实的代理，可能是 Anthropic 用来下载 LLM（大型语言模型）训练数据的，比如AI产品Claude。
69710编辑于 2023-12-31
来自专栏前端说吧
flag - 4-5月份预整理总结的文章目录
1.关于echarts各种稀奇古怪让人想骂niang地需求的配置 2.vue中，mode为history时，build打包后页面空白的解决方法 3.vue中使用axios，实现向请求头中传递cookie值 4.js-sdk微信分享时，动态url的设置 5.vuex的使用步骤梳理，轻松掌握。 6.一个基于promise的ajax异步请求函数封装，不用再写那么多遍的if result === 1啦！ 7.使用vue实现自定义多选与单选的答题功能 8.基于ajax渲染模板的二级/多级自定义联动下拉功能封装， 9.
86450发布于 2018-05-17
来自专栏育种数据分析之放飞自我
笔记 | GWAS 操作流程4-5：LM模型+数值+因子+PCA协变量
第一列为FID 第二列为ID 第三列以后为协变量（注意，只能是数字，不能是字符！）
4.4K40发布于 2020-05-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

机器学习入门 4-5 超参数

4-5 R语言函数 split

javascript高级程序设计(4-5)章笔记

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

【每日一思】2022年第4-5周

AI Bot 爬虫新势力

iOS 面试策略之算法基础4-5节

4-5 安装并迁移数据库：mysql

人工智能浪潮前，从娃娃开始抓起的Python该怎么学？

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

IO竞赛2025年题目解析：基础级难度（4-5）

第二章小程序开发指南4-5

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

Goal-Driven 优于 Task-Driven：你用 Agent 的方式可能完全错了

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

flag - 4-5月份预整理总结的文章目录

爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

flag - 4-5月份预整理总结的文章目录

笔记 | GWAS 操作流程4-5：LM模型+数值+因子+PCA协变量

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

机器学习入门 4-5 超参数

4-5 R语言函数 split

javascript高级程序设计(4-5)章笔记

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

【每日一思】2022年第4-5周

AI Bot 爬虫新势力

iOS 面试策略之算法基础4-5节

4-5 安装并迁移数据库：mysql

人工智能浪潮前，从娃娃开始抓起的Python该怎么学？

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

IO竞赛2025年题目解析：基础级难度（4-5）

第二章 小程序开发指南4-5

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

Goal-Driven 优于 Task-Driven：你用 Agent 的方式可能完全错了

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

flag - 4-5月份预整理总结的文章目录

​爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

flag - 4-5月份预整理总结的文章目录

笔记 | GWAS 操作流程4-5：LM模型+数值+因子+PCA协变量

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第二章小程序开发指南4-5

爬虫+动态代理助力 AI 训练数据采集