首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏刷题笔记

    7-5 字符串循环左移

    点这里 7-5 字符串循环左移 输入一个字符串和一个非负整数N,要求将字符串循环左移N次。 输入格式: 输入在第1行中给出一个不超过100个字符长度的、以回车结束的非空字符串;第2行给出非负整数N。

    1.1K20发布于 2019-11-08
  • 来自专栏刷题笔记

    7-5 小字辈 (25 分)

    点这里 7-5 小字辈 (25 分) 本题给定一个庞大家族的家谱,要请你给出最小一辈的名单。

    90010发布于 2019-11-08
  • 来自专栏freesan44

    PTA 7-5 买地攻略 (25 分)

    数码城市有土地出售。待售的土地被划分成若干块,每一块标有一个价格。这里假设每块土地只有两块相邻的土地,除了开头和结尾的两块是只有一块邻居的。每位客户可以购买多块连续相邻的土地。

    21300发布于 2021-09-11
  • 来自专栏freesan44

    PTA 7-5 买地攻略 (25 分)

    数码城市有土地出售。待售的土地被划分成若干块,每一块标有一个价格。这里假设每块土地只有两块相邻的土地,除了开头和结尾的两块是只有一块邻居的。每位客户可以购买多块连续相邻的土地。

    32720编辑于 2021-12-06
  • 来自专栏以终为始

    7-5 堆中的路径 (25 分)

    7-5 堆中的路径 (25 分) 将一系列给定数字插入一个初始为空的小顶堆H[]。随后对任意给定的下标i,打印从H[i]到根结点的路径。

    22520编辑于 2023-03-09
  • 来自专栏入门到放弃之路

    AI新闻爬虫:传统爬虫和XHR异步加密爬虫的碰撞

    前言AI的发展日新月异,及时掌握一些AI的消息和妹子聊天时也不至于词穷(不建议和妹子聊技术)。所以这里就以36氪和虎嗅网为例,来讲一下如何爬取AI新闻消息以及数据整合。 36氪和虎嗅网这两个网站新闻爬虫比较具有代表性,36氪是传统的html网页爬虫,虎嗅网是异步api加载加密的爬虫,这里就从简单的36氪讲起。 通过python的requests模块发起请求,最后解析目标数据实现36Kr AI快讯爬虫的代码开发。 如图,新闻数据通过接口请求返回json的方式渲染的,而非36Kr返回的HTML,所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。 结语这就是我使用爬虫爬取AI新闻的过程,使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集,还有更优的程序设计架构。

    1.6K50编辑于 2024-03-12
  • 来自专栏iSharkFly

    AI Bot 爬虫新势力

    对使用CloudFlare的用户,可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练,AI也需要从互联网中不断的获取内容才能对自己进行训练。 针对上面的内容和数据来看,AI的爬取量比较大,可能会超过传统的搜索引擎。

    11310编辑于 2025-11-13
  • 来自专栏刷题笔记

    【未完成】7-5 文件传输 (25 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/102727502 7-5 文件传输 (25 分) 当两台计算机双向连通的时候,文件是可以在两台机器间传输的

    43920发布于 2019-11-07
  • 来自专栏freesan44

    PTA 7-5 实验室使用排期 (25 分)

    受新冠疫情影响,当前大家的活动都必须注意保持充分的社交距离,国家实验室的使用也同样受到了严格的限制。假设规定任何一个时间点上,实验室内最多只能有 1 个人,且每个人都必须提前申请实验室的使用,只有申请被批准后才能进入。现给定一批第二天的实验室使用申请,你需要写个程序自动审批,使得能够被批准的申请数量最大化。

    65000发布于 2021-09-10
  • 来自专栏freesan44

    PTA 7-5 实验室使用排期 (25 分)

    受新冠疫情影响,当前大家的活动都必须注意保持充分的社交距离,国家实验室的使用也同样受到了严格的限制。假设规定任何一个时间点上,实验室内最多只能有 1 个人,且每个人都必须提前申请实验室的使用,只有申请被批准后才能进入。现给定一批第二天的实验室使用申请,你需要写个程序自动审批,使得能够被批准的申请数量最大化。

    49210编辑于 2021-12-06
  • AI 爬虫处置实操:用 EdgeOne 一键拦截 20+ 种 AI 爬虫

    先说结论:如果你有一个公开可访问的网站,大概率正在被 AI 爬虫批量抓取,而你可能完全不知道。 、Bytespider、CCBot、anthropic-ai 等这些是主流 AI 爬虫的标识某些 Path 的请求量异常高(如 /sitemap.xml、/feed、全站文章页)AI 爬虫倾向于先读 sitemap 二、核心操作:一键开启 AI 爬虫处置确认有 AI 爬虫活动后,接下来开启防护。 :> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响> - 特征库覆盖 20+ 种主流 AI 爬虫,且持续更新> - 所有套餐(含免费版)都能用这个功能立即配置 免费获取完整报告EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。

    16110编辑于 2026-04-27
  • 来自专栏freesan44

    PTA 7-5 子串与子列 (25 分)

    子串是一个字符串中连续的一部分,而子列是字符串中保持字符顺序的一个子集,可以连续也可以不连续。例如给定字符串 atpaaabpabtt,pabt是一个子串,而 pat 就是一个子列。

    47640发布于 2021-09-10
  • 来自专栏freesan44

    PTA 7-5 子串与子列 (25 分)

    子串是一个字符串中连续的一部分,而子列是字符串中保持字符顺序的一个子集,可以连续也可以不连续。例如给定字符串 atpaaabpabtt,pabt是一个子串,而 pat 就是一个子列。

    40910编辑于 2021-12-06
  • 来自专栏刷题笔记

    【未完成】7-5 对称排序 (25 分)20分

    本文链接:https://blog.csdn.net/shiliang97/article/details/101473181 7-5 对称排序 (25 分) 你供职于由一群丑星作为台柱子的信天翁马戏团

    62820发布于 2019-11-08
  • 来自专栏码神联盟

    网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

    ’,网络爬虫工程师又被亲切的称之为‘虫师’。 网络爬虫概述 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 网络爬虫原理 网络爬虫原理: Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。 网络爬虫工作原理: 在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。 控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。 控制器: 控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。

    6K50发布于 2018-07-30
  • AI网络爬虫:搜狗图片的时间戳反爬虫应对策略

    但是写了爬虫程序后,json数据爬取失败。仔细检查请求头,原来是里面加了时间戳:X-Time4p 是一个自定义的HTTP头部字段,通常用于传递与时间相关的信息。

    1K10编辑于 2024-06-23
  • 来自专栏刷题笔记

    【2020HBU天梯赛训练】7-5 宇宙无敌大招呼

    7-5 宇宙无敌大招呼 据说所有程序员学习的第一个程序都是在屏幕上输出一句“Hello World”,跟这个世界打个招呼。作为天梯赛中的程序员,你写的程序得高级一点,要能跟任意指定的星球打招呼。

    82910发布于 2020-06-23
  • 来自专栏刷题笔记

    【2019秋PAT乙级真题】7-5 链表合并 (25 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/100634522 7-5 链表合并 (25 分) 给定两个单链表 L​1​​=a​1​​→

    44420发布于 2019-11-08
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 7-5 高维数据映射为低维数据

    我们此时有一个m行n列的样本矩阵X,此时的X样本矩阵代表有m个样本n个特征。通过前面的关于主成分的学习,此时假设我们已经求出针对X样本矩阵来说前k个主成分,每一个主成分对应的一个单位方向,用W矩阵来表示,此时的W矩阵为k行n列,代表前k个主成分,每一个主成分有n个元素。在上一小节提到主成分分析的本质就是从一组坐标系转移到另外一组新的坐标系的过程,而由于我们原来为n维坐标系,因此转换之后的坐标系也有n个维度,只不过对于转换后的坐标系来说,取出前k个更加重要的方向,因此W是k行n列的矩阵。

    4K31发布于 2019-11-13
  • 爬虫+动态代理助力 AI 训练数据采集

    引言近年来,AI 技术飞速发展,很多朋友都投身于 AI 模型的训练。然而,相较于模型的获取,高质量的数据往往更加难以收集。 借助其代理服务,我们可以显著提高爬虫程序的访问成功率,从而更高效地获取数据,助力 AI 模型的训练。 维基百科是 AI 领域的重要数据来源,广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。 登录以后进入控制台,点击网页抓取API,选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上,高质量的数据是不可或缺的

    57810编辑于 2025-03-19
领券