首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 4-5 超参数

    通过前面的小节,我们知道了kNN算法中k这个参数值,在sklearn中k这个值被封装成了k_neighbors参数。在前面我们随机的指定参数k的值,究竟k的值为多少的时候,模型才是最好的呢?这就涉及到了机器学习领域非常重要的问题~超参数问题。

    76630发布于 2019-11-13
  • 来自专栏Hank’s Blog

    4-5 R语言函数 split

    #split根据因子或因子列表将 向量或其他对象分组 #通常与lapply一起使用 #split(参数):split(向量/列表/数据框,因子/因子列表) > x <- c(rnorm(5),runif(5),rnorm(5,1)) > x [1] 0.61008707 0.81746169 -1.09859969 -1.78134612 -1.94262725 0.99760581 [7] 0.37793960 0.05258653 0.38525197 0.46051864 -0.

    93540发布于 2020-09-16
  • 来自专栏大前端_Web

    javascript高级程序设计(4-5)章笔记

    版权声明:本文为吴孔云博客原创文章,转载请注明出处并带上链接,谢谢。 https://blog.csdn.net/wkyseo/article/details/51234909

    75240发布于 2018-09-27
  • 来自专栏运维之路

    【每日一思】2022年第4-5

    一直认为理想情况下的数据运营方法应该基于“贴源层数据-》指标(至少到带有主题的流水)-》洞察-》决策-》执行”的路线,这样才能减少返工的重复性工作量。

    28520编辑于 2022-03-07
  • 来自专栏iOS面试

    iOS 面试策略之算法基础4-5

    前面介绍了数组、字典、字符串、链表、栈、队列的处理和应用方法。本节将会探讨平常相对很少用到、面试中却是老面孔的数据结构:二叉树。本节主要包括以下内容:

    1.1K60发布于 2021-04-20
  • 来自专栏NetCore 从壹开始

    4-5 安装并迁移数据库:mysql

    docker volume create volume_name命令新建一个数据卷

    88520编辑于 2023-01-09
  • 来自专栏AI

    AI中的数据存储

    : GB级别的顺序写 推理和RAG过程中: TB级别的随机读 归档过程中: PB级别的随机写 典型 AI 集群的存储剖析(按存储性能分层存储) 图片 左边绿色GPU服务器集群通常只能提供8个U.2的插槽 中间采用高性能全闪存,通过是TLC, 弥补机械盘性能, 总容量比HDD少 右边采用对象存储, 存储集群或JBODS, 包含大量机械盘, 总容量占比高 AI集群中的数据移动 图片 1.数据采集阶段,原始数据按顺序写入对象存储层 RAG 还可以创建额外的 I/O 活动 5.归档流程: 模型输入和输出被捕获并写入对象存储层的磁盘 旨在优化 AI 存储效率的产品组合 QLC 提升新型 AI DC(数据中心) 构建的电源效率 每个 DGX 有关建模详细信息,请参阅附录“QLC 功率效率与 HDD” 模型训练与数据存储 AI 数据穿越存储层之旅 最近的检查点基本在SSD上 早期的检查点数据在HDDS AI数据量级和性能 检查点:提高存储容量和吞吐量 Blob 存储层一次性访问可实现高吞吐量 AI负载中的存储扩展性 总结 AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求 AI行业也会带动存储行业发展,

    1.7K11编辑于 2024-09-18
  • 来自专栏存储公众号:王知鱼

    微软:AI存储,SSD or HDD ?

    Fig-2 AI训练工作流对应的存储方案定性说明。 Fig-3 图示 AI训练工作流中存储层动态交互过程。 数据转移到HDD层做长时保留 • 存储层的性能/容量,随GPUs数量及训练次数弹性扩展 AI模型训练前,要完成数据Tokenization/ Vectorization,用什么专用软件来实现? 核心要点:GPU从Blob存储层同时访问会驱动高吞吐量 Fig-6 从AI系统存储带宽需求,看HDD和SSD发展现况和机遇: • 当前系统使用SSD能满足训练和Checkpoint的性能读取(但成本较高 总结 作为运营主要AI训练资源云厂商,”巨硬“对AI应用层系统实践,应该说是富有经验的,从这篇分享中可以总结以下几点: • 和新兴存储厂商(WEKA/VAST/Infidant)等普遍拥抱闪存基础设施& (Fig-5); • HDD/SSD介质发展趋势,AI场景要兼顾容量和性能(Fig-7)。

    1.3K10编辑于 2025-02-11
  • 来自专栏存储公众号:王知鱼

    SuperMicro:AI存储硬件方案

    SuperMicro:AI存储硬件方案-Fig-1 云厂商 AI存储方案 大规模 AI/GPU 集群基础设施。按可扩展单元 (SU,也称为 Pod,例如 256 个 GPU) 进行扩展。 最高性能的 AI 训练和推理。 存储需求: • 全部为 NVMe 存储。 • 每个 SU 的性能要求:读取 125 GBps / 写入 62 GBps。 SuperMicro:AI存储硬件方案-Fig-2 企业级AI存储方案 Pod 级别的部署(较云厂商规模、性能要求降低) 企业用例,推理与训练的比较 存储需求: • 全 NVMe 或 PB 级别的分层存储 • 并行文件系统,高性能对象存储。 SuperMicro:AI存储硬件方案-Fig-3 基础计算硬件方案 在执行 AIOps 和 MLOps 时: • GPU 密集型服务器加速 AI 训练和推理。 SuperMicro:AI存储硬件方案-Fig-5 计算+存储(性能层)+容量层 方案 所有训练数据集和模型都存储在本地 • 数据湖使用容量优化的存储

    1.1K10编辑于 2025-02-11
  • 来自专栏AI SPPECH

    IO竞赛2025年题目解析:基础级难度(4-5

    2025年的IO竞赛基础级(难度系数4-5)题目开始涉及更多的数据结构和算法思想,对选手的编程能力和逻辑思维提出了更高的要求。 难度进阶路径: 入门(1-3) → 基础(4-5) → 提高(6-8) → 竞赛(9-10) 难度系数 考察重点 核心知识点 学习目标 4-5 数据结构、算法应用 栈、队列、树、图的基础应用 掌握基础数据结构的使用和简单算法的实现 ) ├── 第四章:基础级题目解题技巧总结 └── 第五章:从基础到提高的学习建议 第一章:2025年IO竞赛基础级题目概述 根据2025年NOI修订版大纲,基础级(CSP-J提高)的知识点难度系数为4- 队列中存储的是元素的索引,而非元素值本身。 vector<int> max_sliding_window(vector<int>& nums, int k) { vector<int> result; deque<int> dq; // 存储索引

    36110编辑于 2025-11-13
  • 来自专栏皮振伟的专栏

    漫谈AI推理与存储

    AI存储核心需求 模型权重 LLM模型权重是AI推理最基础的持久化存储数据,核心特征为一次写入、多次读取。 KV Cache存储诉求、延迟与成本痛点 综合两种KV Cache管理方式,AI推理场景对存储的核心诉求可总结为三点:容量大、数量多、分布式高效调度。 基于GD2FS的AI推理架构 基于GD2FS构建的LLM推理协同架构,核心是重塑端到端的AI推理链路,打破传统推理引擎、存储、调度系统的割裂状态。 AI推理是典型的系统性工程,性能优化不能局限于单一模块,需实现存储、推理、调度的全局协同。 、缓存吞吐、存储成本、资源调度等核心痛点,为超长上下文、高并发、大规模AI推理场景提供底层支撑。

    19210编辑于 2026-06-05
  • 来自专栏焱融科技

    AI 场景的存储优化之路

    人工智能是数据的消耗大户,对存储有针对性的需求。这次我们讲讲面向AI场景的存储性能优化思路。 谈优化之前,我们先分析一下AI访问存储的几个特点: 海量文件,训练模型的精准程度依赖于数据集的大小,样本数据集越大,就为模型更精确提供了基础。 跟一些AI公司的同事交流中,大家经常提到的一个问题就是,用户在某一个目录下存放了海量文件,导致训练的时候出现性能问题,其实就是碰到了存储的热点问题。 综上,对于AI场景来说,分布式存储面临三大挑战: 海量文件的存储 小文件的访问性能 目录热点 海量文件的存储 首先讨论海量文件存储的问题。海量文件存储的核心问题是什么,是文件的元数据管理和存储。 总结 本文针对海量文件存储、小文件访问性能、热点访问三个维度,分析了面向AI场景下,分布式文件系统面临的挑战,以及我们的应对思路,也希望借此文和更多技术专家交流如何对AI场景下的存储方案进行针对性的优化

    1.9K10发布于 2020-02-27
  • 来自专栏AI系统

    AI系统】指令和存储优化

    除了应用极广的循环优化,在 AI 编译器底层还存在指令和存储这两种不同优化。指令优化指令优化依赖于硬件提供的特殊加速计算指令。这些指令,如向量化和张量化,能够显著提高计算密度和执行效率。 并将结果存储到数组 C 当中。 张量化在 AI 应用日益广泛的今天,程序运行的数据形式经历了显著的演变。特别是以神经网络为代表的神经网络模型,其内部数据形式为多维矩阵,通常称为张量。 在 AI 系统中,这种视角下的内存管理显然无法支撑起 AI 应用。AI 系统通常需要处理大量的数据和复杂的算法,这就需要高效的内存分配和回收策略来支持它们的运行。 NPU 的内存管理机制包括:片上内存:NPU 通常具有片上内存,用于存储权重和激活等数据,以减少与外部内存的通信开销。内存访问模式:NPU 针对 AI 工作负载进行了优化,支持高并发的内存访问模式。

    82410编辑于 2024-11-29
  • 来自专栏AI掘金志

    华为AI存储「求解」大模型

    另一方面,以大模型为代表的多模态AI,数据结构、类型远比单模态AI复杂,数据量也更加庞大。 两大趋势相互叠加,市场对于存储的增量需求呼之欲出。 二、AI存储三要素:精度、效率、能耗 以往,训练模型的方法简单而粗暴:大量的数据加上人工,以及强大的算力,不断调优,提高模型精度。 很明显,前一种方式被广泛使用并达到了极限,后一种方式正呈星火燎原之势,开始席卷整个AI行业。 三、AI存储如何让企业用上大模型? 基于此,华为推出了两款AI存储产品:OceanStor A310 ,FusionCube A3000。 AI存储的未来 从工业社会到信息社会,伴随着新技术的发展,数据的总量呈几何级数增长。 如何利用好数据成为关键,而这又与存储技术息息相关,两者相互影响、互相作用。

    51930编辑于 2023-08-26
  • 来自专栏跟着官方文档学小程序开发

    第二章 小程序开发指南4-5

    在后面章节还会提到如何利用本地数据缓存的能力把SessionId存储起来,以便在它还没过期的时候能重复利用,以提高通信的性能。 2.4.6 本地数据缓存 本地数据缓存是小程序存储在当前设备上的数据,本地数据缓存有非常多的用途,可以利用本地数据缓存来存储用户在小程序上产生的操作,在用户关闭小程序重新打开时可以恢复之前的状态。 还可以利用本地缓存存储一些服务端非实时的数据以提高小程序获取数据的速度,在特定的场景下可以提高页面的渲染速度,减少用户的等待时间。 由于本地缓存是存放在当前设备里,用户更换设备之后无法从另一个设备读取到当前设备的数据,因此用户的关键信息不建议只存在本地缓存,应该把数据存放到服务器端进行持久化存储。 如果把SessionId记录在JS中的某个内存变量,当用户关闭小程序再进来小程序时,之前内存的SessionId已经丢失,此时就需要利用本地缓存的能力来持久化存储SessionId。

    72910编辑于 2025-08-25
  • 来自专栏云云众生s

    为什么AI青睐对象存储

    AI模型做出的每一个决策,它发现的每一个洞见,都源于为其训练和运行提供动力的海量数据储备。然而,随着AI模型变得越来越庞大和复杂,它们与数据交互的方式也带来了传统存储系统无法应对的挑战。 分散在分布式系统中的小文件以及对随机访问的需求,突显了AI的需求与最初为结构化、顺序工作流构建的基础设施能力之间的不匹配。 这篇博文探讨了对象存储如何为AI对数据的永不满足的渴望提供动力。 传统上,存储层通常是手动管理的,需要仔细编排才能在快速的临时存储和较慢的归档层之间移动数据。跨越数十PB非结构化数据的AI工作负载受益于对象存储固有的可扩展性。 与将某些操作集中化的存储系统不同,对象存储将数据和元数据分布在节点集群中,消除了单点瓶颈。这种架构允许AI工作负载随着数据增长线性扩展。 相关文章: 革新存储:GPU在现代基础设施中的作用 Tecton应对下一代生成式AI的重大挑战:个性化 AI 测试:更广泛的覆盖范围、更少的错误、新的风险 DevOps中使用AI:开发人员和运维人员需要了解什么

    44610编辑于 2025-01-25
  • 来自专栏前端说吧

    flag - 4-5月份预整理总结的文章目录

    关于echarts各种稀奇古怪让人想骂niang地需求的配置 js-sdk微信分享时,动态url的设置 基于ajax渲染模板的二级/多级自定义联动下拉功能封装, 一个基于promise的ajax异步请求函数封装,不用再写那么多遍的if result === 1啦! css-移动端h5在iphonex的适配 vuex的使用步骤梳理,轻松掌握。附源码 使用vue实现自定义多选与单选的答题功能 vue中使用axios,实现向请求头中传递cookie值 vue中,mode为history时,build打包后页面空白

    75230发布于 2018-06-25
  • 来自专栏存储公众号:王知鱼

    AMD:AI驱动的存储革命,DPU加速存储访问新趋势

    本文将探讨AI存储系统的影响趋势,分析AMD GPU生态系统在AI领域的优势,以及DPU在AI场景中的应用机遇,并通过实际案例研究展示DPU在加速存储访问中的显著效果。 1. AI存储系统的影响趋势 AI的兴起生成性AI的快速发展及其在文本、图像和视频生成等领域的广泛应用。 大型语言模型(LLMs)模型规模的快速增长及其对高效存储和计算的需求。 阅读收获 深入理解AI存储系统的影响及其未来趋势。 掌握AMD GPU生态系统在AI场景中的优势与应用。 了解DPU在AI存储优化中的关键作用与实际案例。 专访AMD GPU副总裁:解读AMD在HPC和AI领域的战略 存储优化的AI框架和基准测试 图表展示了两个关键的趋势: 存储优化的AI框架:随着AI模型变得越来越大,传统的内存和存储架构已经无法有效支持这些庞大的计算任务 AI系统中对分离存储的需求 图表强调了在AI系统中,尤其是在处理大规模AI模型和数据时,存储资源的优化和分离变得至关重要。

    87600编辑于 2025-02-18
  • 来自专栏育种数据分析之放飞自我

    笔记 | GWAS 操作流程4-5:LM模型+数值+因子+PCA协变量

    第一列为FID 第二列为ID 第三列以后为协变量(注意,只能是数字,不能是字符!)

    4.5K40发布于 2020-05-29
  • 来自专栏存储公众号:王知鱼

    Solidigm:AI数据管道与存储方案

    Fig-1 AI数据处理管道,类似版本2024年初海外多个存储厂商都有曝露过,基本包含以下组成元素: • 数据管道流程:数据摄取--准备(预训练)--LLM训练--微调/RAG/推理 • LLM训练过程 Fig-2 典型AI集群中的存储,包含以下3个组成部分: 1. GPU服务器-直连存储 • 有限存储(通常为8个U.2插槽) 2. 对象存储层 • 存储服务器或JBOD,包含大量存储设备(目前通常是HDD) Fig-3 在数据摄取环节,原始文件顺序写入到对象存储层中。 80%; • 空间利用率提高50%; Note:PPT中存储方案前缀为NAS,这是文件存储的方案,旨在说明存储层从原对象存储过渡到文件存储。 小结 • 认识AI数据流管道,不同环节数据体量和相应读写IO特征(Fig-1); • 企业AI生产基础设施的存储堆栈特征(Fig-2); • 思得基于QLC闪存的AI生产解决方案及其核心优势(Fig-9

    69110编辑于 2025-02-11
领券