首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏技术杂记

    Mysql 优化存储4

    一般少也能缩减5%的空间,平均在10%左右,我自己经历最明显效果的是减少了32%的空间,对于一个大库来说,能节省不少磁盘空间,并且对查询性能也有一定优化效果

    45820编辑于 2022-03-21
  • 来自专栏智能时刻

    存储】2022 年的 4 个开源对象存储平台

    介绍 在处理大量非结构化数据时,我们需要一个地方来存储它。我们选择存储数据的方式有很多种,但今天我们要关注的一种是对象存储或基于对象的存储。 如果您不熟悉它,对象存储是一种数据存储架构,允许您将大量非结构化数据存储在可扩展的对象结构中。它将数据存储为具有元数据和唯一标识符的对象,从而更容易访问该数据。现在,有许多平台提供对象存储设施。 MinIO MinIO 是一款开源云存储软件,提供高性能分布式对象存储,专为大规模数据基础设施而设计。 4.OpenIO OpenIO 是一种开源对象存储解决方案,用于管理和保护大量非结构化数据。它允许您构建和操作具有弹性且安全的大规模存储基础架构。 本文 https://jiagoushi.pro/4-open-source-object-storage-platforms-2021 讨论:知识星球【首席架构师圈】或者加微信小号【cea_csa_cto

    13.4K10编辑于 2022-03-08
  • 来自专栏Linux驱动

    汇编指令-str存储指令(4)

    str -(Store Register)存储指令 格式: str{条件}  源寄存器,<存储器地址> 将源寄存器中数据存到存储器地址中。  实例1: str   r1,[r2]        ; 将r1中的值存到r2所指定的地址中 str  r1,[r2,#4]   ;将r1中的值存到r2+4所指定的地址中 str   r1,[r2],#4 因为现在程序运行在起始地址为0x0000 0000的地方 ldr r1, =BWSCON                                 //将BWSCON所指向的首地址值存到r1中 (第一个存储器寄存器首地址 ) add r2, r0, #13*4                                   //每个寄存器4字节,r2=r0+13*4=最后一个存储器寄存器+4 0:  ldr Tacp<<2)+(B3_PMC)) .word ((B4_Tacs<<13)+(B4_Tcos<<11)+(B4_Tacc<<8)+(B4_Tcoh<<6)+(B4_Tah<<4)+(B4_Tacp

    2.4K50发布于 2018-01-03
  • 来自专栏BeJavaGod

    MongoDB-4 GridFS 文件存储

    1. 配置config spring: data: mongodb: uri: mongodb://username:password@192.168.2.72:27017 database: mydb @Component public class WebConfig { @Value("${spring.data.mongodb.database}") private String mongodb; @Bean public Gri

    1.4K10发布于 2020-03-05
  • 来自专栏机器学习之禅

    4 | PyTorch张量操作:底层存储逻辑

    张量的存储 前面我们说过,张量的存储空间是连续的,最开始我可能以为存储像张量的结构一样, 比如说像这样的方块区域 但是,实际上它是这样存储的 然后使用偏移量和步长来进行索引,关于这两个概念我们后面会讨论 但是在某些情况,比如说我们有一个4*4的tensor,我们从它的(1,1)的位置选取一个子tensor,这个时候这个子tensor的offset就不是0了,应该是5? , 8., 4., 5.]]) 转置之后发生了什么呢,其实什么都没有发生,存储区还是一个存储区,变的只是tensor对于存储区的索引结构 #验证这两个tensor是用的一个存储区 id(points.storage()) == id( 那么如果我们想用这些方法怎么办呢,PyTorch自然也给出了解决办法,那就是contiguous方法,使用这个方法会改变存储存储顺序,使得存储区顺序符合当前tensor连续的要求。

    83331编辑于 2022-07-11
  • 来自专栏三分恶的专栏

    MySQL提升笔记(4)InnoDB存储结构

    为了保证区中页的连续性,InonoDB存储引擎一次从磁盘申请4-5个区。在默认情况下,InnoDB存储引擎的页的大小为16KB,即一个区中应有64个连续的页。 InnoDB1.0.x版本开始引入压缩页,每个页的大小可以通过参数KEY_BLOCK_SIZE设置为2K、4K、8K,因此每个区对应的页尾512、256、128. InnoDB1.2.x版本新增了参数innodb_page_size,通过该参数可以将默认页的大小设置为4K、8K,但是页中的数据不是压缩的。 4K、8K、16K。 【4】:InnoDB数据页结构分析 【5】:InnoDB数据页结构 【6】:InnoDB -- 行记录格式

    92420发布于 2021-04-22
  • 来自专栏皮振伟的专栏

    漫谈AI推理与存储

    AI存储核心需求 模型权重 LLM模型权重是AI推理最基础的持久化存储数据,核心特征为一次写入、多次读取。 4. 红色(传统拷贝):性能最差,需经过多次用户态、内核态数据拷贝,但通用性最强,适配所有场景,这一点在Python主导的AI推理生态中尤其重要。 基于GD2FS的AI推理架构 基于GD2FS构建的LLM推理协同架构,核心是重塑端到端的AI推理链路,打破传统推理引擎、存储、调度系统的割裂状态。 AI推理是典型的系统性工程,性能优化不能局限于单一模块,需实现存储、推理、调度的全局协同。 、缓存吞吐、存储成本、资源调度等核心痛点,为超长上下文、高并发、大规模AI推理场景提供底层支撑。

    10710编辑于 2026-06-05
  • 来自专栏AI

    AI中的数据存储

    图片 3a.检查点过程: 模型训练数据会定期写入磁盘,并根据需要读回 图片 4.推理(Inference): 该模型已部署并开始接收输入,在 GPU 服务器中生成随机读取活动。 RAG 还可以创建额外的 I/O 活动 5.归档流程: 模型输入和输出被捕获并写入对象存储层的磁盘 旨在优化 AI 存储效率的产品组合 QLC 提升新型 AI DC(数据中心) 构建的电源效率 每个 DGX 有关建模详细信息,请参阅附录“QLC 功率效率与 HDD” 模型训练与数据存储 AI 数据穿越存储层之旅 最近的检查点基本在SSD上 早期的检查点数据在HDDS AI数据量级和性能 检查点:提高存储容量和吞吐量 Blob 存储层一次性访问可实现高吞吐量 AI负载中的存储扩展性 总结 AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求 AI行业也会带动存储行业发展, v=jQ-ZCvg4ZFU&t=635s 晓兵(ssbandjl) 博客: https://cloud.tencent.com/developer/user/5060293/articles | https

    1.7K11编辑于 2024-09-18
  • 来自专栏企鹅号快讯

    g4e基础篇#4 了解Git存储

    虽然git是分布式版本控制系统(DVCS),但是在企业开发中,我们仍然需要一个中心git存储库以便不同的团队成员可以更为方便的交换代码。 与集中式(CVCS)的中心存储库不同,Git的中心存储库与任何开发人员的本地存储库都保留了一致的代码变更,因此开发人员不必连接到中心存储库就可以完成获取历史记录,拉取分支,合并分支等操作;这给予了每一名开发人员离线工作的能力 所以,在企业中使用Git并配合中心存储库可以兼顾团队开发中共享和独立开发的诉求,让开发人员具备很高的自由度的同时又不会丧失代码集中存储所带来的优势。 ,克隆会开始,完成以后你就可以开始操作本地git存储库了。 小结 至此,我们已经可以获取一个Git存储库了,后面的篇章我们将开始对它进行最基本的代码修改,分支,合并,推送和历史记录查看等基本操作。

    1.6K60发布于 2018-02-06
  • 来自专栏存储公众号:王知鱼

    微软:AI存储,SSD or HDD ?

    Fig-2 AI训练工作流对应的存储方案定性说明。 Fig-3 图示 AI训练工作流中存储层动态交互过程。 Fig-4 训练过程对存储的需求(容量/性能) 阶段 数据摄入 数据整理 训练和检查点 数据增长 • 数据生成• 数据获取 • 模型参数代表整理后的数据 • 模型参数和GPU数量• 检查点频率• 数据保留 检查点管理: • 频率:检查点的频率会直接影响存储需求。 • 数据分层:最新检查点保存在SSD上以保证快速访问,旧数据则存储在HDD上以节省成本。 4. 核心要点:GPU从Blob存储层同时访问会驱动高吞吐量 Fig-6 从AI系统存储带宽需求,看HDD和SSD发展现况和机遇: • 当前系统使用SSD能满足训练和Checkpoint的性能读取(但成本较高 总结 作为运营主要AI训练资源云厂商,”巨硬“对AI应用层系统实践,应该说是富有经验的,从这篇分享中可以总结以下几点: • 和新兴存储厂商(WEKA/VAST/Infidant)等普遍拥抱闪存基础设施&

    1.2K10编辑于 2025-02-11
  • 来自专栏存储公众号:王知鱼

    SuperMicro:AI存储硬件方案

    SuperMicro:AI存储硬件方案-Fig-1 云厂商 AI存储方案 大规模 AI/GPU 集群基础设施。按可扩展单元 (SU,也称为 Pod,例如 256 个 GPU) 进行扩展。 右下角图片显示单节点/单SU/4SU不同体系读写带宽,Good/Better/Best不同性能依据存储硬件配置(如SATA/SAS/NVMe SSD)和网络带宽条件。 SuperMicro:AI存储硬件方案-Fig-2 企业级AI存储方案 Pod 级别的部署(较云厂商规模、性能要求降低) 企业用例,推理与训练的比较 存储需求: • 全 NVMe 或 PB 级别的分层存储 SuperMicro:AI存储硬件方案-Fig-4 计算+存储(性能层) 方案 • Active data is stored here (活跃数据存储于此) • 针对性能进行了优化,将数据尽可能快地传递给应用程序 • 4KB 随机读取 IOPS 可达 3000 万,128KB 顺序读取带宽超过 230 GB/s。

    1K10编辑于 2025-02-11
  • 来自专栏焱融科技

    AI 场景的存储优化之路

    人工智能是数据的消耗大户,对存储有针对性的需求。这次我们讲讲面向AI场景的存储性能优化思路。 谈优化之前,我们先分析一下AI访问存储的几个特点: 海量文件,训练模型的精准程度依赖于数据集的大小,样本数据集越大,就为模型更精确提供了基础。 综上,对于AI场景来说,分布式存储面临三大挑战: 海量文件的存储 小文件的访问性能 目录热点 海量文件的存储 首先讨论海量文件存储的问题。海量文件存储的核心问题是什么,是文件的元数据管理和存储。 在MDS4上拿到file1的inode信息,返回给客户端 测试模拟了AI训练中,多个客户端并发访问同一个目录的场景。 总结 本文针对海量文件存储、小文件访问性能、热点访问三个维度,分析了面向AI场景下,分布式文件系统面临的挑战,以及我们的应对思路,也希望借此文和更多技术专家交流如何对AI场景下的存储方案进行针对性的优化

    1.9K10发布于 2020-02-27
  • 来自专栏AI系统

    AI系统】指令和存储优化

    除了应用极广的循环优化,在 AI 编译器底层还存在指令和存储这两种不同优化。指令优化指令优化依赖于硬件提供的特殊加速计算指令。这些指令,如向量化和张量化,能够显著提高计算密度和执行效率。 并将结果存储到数组 C 当中。 // "$1" 和 "$3" 是矩阵 A 和 B 的指针// "$2" 和 "$4" 是矩阵 C 的指针,用于累加操作// "[$2]" 和 "[$4]" 是内存地址// "0x7" 是加载操作的控制码 在 AI 系统中,这种视角下的内存管理显然无法支撑起 AI 应用。AI 系统通常需要处理大量的数据和复杂的算法,这就需要高效的内存分配和回收策略来支持它们的运行。 NPU 的内存管理机制包括:片上内存:NPU 通常具有片上内存,用于存储权重和激活等数据,以减少与外部内存的通信开销。内存访问模式:NPU 针对 AI 工作负载进行了优化,支持高并发的内存访问模式。

    78610编辑于 2024-11-29
  • 来自专栏人芳觅

    Geant4--root和csv文件存储

    01 — Geant4调用root/csv文件存储格式方法 a) 在/include/中添加文件MYHistoManager.hh: #ifndefMYHistoManager_h #defineMYHistoManager_h ~7,运行完* run1.mac之后将会生成一个myfile_h1_Eabs.csv,其中存储了一个直方图;还有一个myfile_nt_tuple.csv(数据内容为空),和8个myfile_nt_tuple_t0 图2 csv文件存储的直方图内容 其中, entries:当前bin获取了多少个满足信息抽取条件的数据,对应hist中的Y轴counts; Sw:每个数据填充时配置权重weight(默认为1),当前bin 图4 多个csv文件中的数据合并 04 — 总结展望 Root和csv文件流的优点在于它们的多线程管理能力,对于直方图两者均能在EndofRunAction中实现数据合并;而对于ntuple原始数据的存储 总结来看:如果倾向数据统计,则root直方图直接存储合理;倾向于保存原始数据,csv文件存储更高效,方便后续做集中数据处理分析。

    3.3K72发布于 2020-10-10
  • 来自专栏罗超频道

    看云存储如何吃掉4G

    去年,百度云提供2TB的免费空间,掀起了云存储免费之风。问题是,人们有了空间却不一定用得完,因为没有应用可以吞噬这么多流量。4G或将成为个人云存储的引爆点。 一、更多的云存储场景 4G不只是网速的提升,而是移动生态的重构。在网速的支撑下,应用形态丰富、资费不断便宜,新的设备和应用会面世,进而使云存储具备了更多的使用场景。 如若4G普及并且资费降下来,需要同步的App在随时随地都会进行文件的上传和下载。经过笔者亲自测试,中国移动4G网络的速度并不比10M带宽支撑的WIFI慢。 其次,云端存储将成为App的标配。 4G时代,所有App均会将云端数据中心作为核心存储,本地存储成为补充和缓存。 每个人的设备都在变多,但个人ID却只有一个,设备之间数据要同步,必须通过云。 速度太慢、覆盖太少、不稳定等原因成为制约云存储发展的瓶颈,4G消灭了瓶颈,进而成为云存储引爆点。

    2K60发布于 2018-04-28
  • 来自专栏云云众生s

    为什么AI青睐对象存储

    AI模型做出的每一个决策,它发现的每一个洞见,都源于为其训练和运行提供动力的海量数据储备。然而,随着AI模型变得越来越庞大和复杂,它们与数据交互的方式也带来了传统存储系统无法应对的挑战。 问题不仅仅在于数据的绝对数量——尽管像GPT-4这样的模型处理数万亿个token——还在于访问和管理数据的复杂性。 传统上,存储层通常是手动管理的,需要仔细编排才能在快速的临时存储和较慢的归档层之间移动数据。跨越数十PB非结构化数据的AI工作负载受益于对象存储固有的可扩展性。 与将某些操作集中化的存储系统不同,对象存储将数据和元数据分布在节点集群中,消除了单点瓶颈。这种架构允许AI工作负载随着数据增长线性扩展。 相关文章: 革新存储:GPU在现代基础设施中的作用 Tecton应对下一代生成式AI的重大挑战:个性化 AI 测试:更广泛的覆盖范围、更少的错误、新的风险 DevOps中使用AI:开发人员和运维人员需要了解什么

    43010编辑于 2025-01-25
  • 来自专栏AI掘金志

    华为AI存储「求解」大模型

    另一方面,以大模型为代表的多模态AI,数据结构、类型远比单模态AI复杂,数据量也更加庞大。 两大趋势相互叠加,市场对于存储的增量需求呼之欲出。 二、AI存储三要素:精度、效率、能耗 以往,训练模型的方法简单而粗暴:大量的数据加上人工,以及强大的算力,不断调优,提高模型精度。 很明显,前一种方式被广泛使用并达到了极限,后一种方式正呈星火燎原之势,开始席卷整个AI行业。 三、AI存储如何让企业用上大模型? 基于此,华为推出了两款AI存储产品:OceanStor A310 ,FusionCube A3000。 AI存储的未来 从工业社会到信息社会,伴随着新技术的发展,数据的总量呈几何级数增长。 如何利用好数据成为关键,而这又与存储技术息息相关,两者相互影响、互相作用。

    50830编辑于 2023-08-26
  • 来自专栏存储公众号:王知鱼

    AMD:AI驱动的存储革命,DPU加速存储访问新趋势

    DPU市场发展多款DPU产品的推出及其在AI场景中的应用潜力。 4. 案例研究:DPU加速的大模型训练 MangoBoost GPU存储加速(GSB)NVMe/TCP硬件加速与点对点通信优化。 主要展示了ChatGPT、GPT-4、ERNIE 4.0、Claude 3 Opus等几个重要的模型,以及它们在不同领域和应用中的大小和参数。模型的规模从几亿到数千亿不等,且正在持续增长。 专业的人工智能模型分析:LifeArchitect.ai 提供了对大型语言模型(LLM)的综合分析和比较,包括 GPT-3、GPT-4、PaLM 等多个模型,具体涉及这些模型的规模、能力和训练数据。 4. 硬件和软件的设计 RISC 由于RISC指令集简单,硬件的实现相对简单,设计时更多依赖于硬件的速度和流水线技术来提高性能。 软件编程通常需要更多的指令来完成某个任务,但每条指令的执行非常快速。 L4 - 案例研究:DPU 加速的大模型训练 MangoBoost GPU存储加速(GSB)——(1)NVMe/TCP硬件 图表展示了如何通过将NVMe/TCP协议栈的处理卸载到DPU(数据处理单元)上

    84100编辑于 2025-02-18
  • 来自专栏云计算linux

    图形存储数据库Neo4j

    《NoSQL数据库技术与应用》 教学设计 课题 名称 第9章 图形存储数据库Neo4j 计划学时 5 课时 内容 分析 图形存储数据库也是NoSQL数据库的一种类型,它主要是应用图形理论存储实体之间的关系信息 常见的图形存储数据库有Neo4j、FlockDB以及AllegroGrap。由于Neo4j数据库是目前最流行、稳定的图形存储数据库,因此,本章将针对Neo4j数据库的相关知识进行详细讲解。 教学目标及基本要求 1、熟悉Neo4j概述 2、理解Neo4j的数据模型 3、掌握Neo4j的部署 4、掌握Neo4j的Cypher操作 5、掌握Neo4j的Java API操作 教学 重点 1、Neo4j 教 学 过 程 第一课时 (Neo4j简介、Neo4j特点、Neo4j应用场景) 一、Neo4j概述 介绍Neo4j Neo4j是一个高性能、高可靠性、可扩展、支持ACID事务的图数据库。 明确学习目标 (1)熟悉Neo4j (2)熟悉Neo4j特点 (3)熟悉Neo4j应用场景 二、进行重点知识讲解 Neo4j简介 教师可以参考课件进行讲解Neo4j的起源和定义。

    71910编辑于 2024-12-07
  • 来自专栏SDNLAB

    OPNFV存储利器——Stor4NFV宣布立项

    因此OPNFV本周宣布成立新的项目Stor4NFV,将其与其他场景一起集中在需求上,并针对NFV的需求进行优化,特别适用于存储密集型用例。 Stor4NFV的初始目标是I/O性能改进,同时还要兼顾缩放和稳定性因素。最终存储将需要演进成为整个OPNFV架构的关键部分,包括但不限于:服务保证、平台性能、与网络堆栈的集成以及测试。 具体的I/O优化细节,Stror4NFV项目主要关注以下几个方面: 客户端RDB缓存加速Ceph I/O读写 基于闪存存储介质的高吞吐量和低延迟解决方案 针对不同种类数据定制优化方案 OpenSDS和Ceph 与OPNFV平台的集成 Stor4NFV这样一个专注于存储性能提升和优化的项目将会使所有的NFV用例受益,能够确保存储不会成为NFV应用的瓶颈。 Stor4NFV项目的贡献者主要来自Intel、中国移动、星辰天合(XSKY)、华为、中兴、戴尔等公司。

    80090发布于 2018-03-29
领券