数据量这两年涨得吓人,集群已经扩充到百余台机器,愣是把存储空间吃得干干净净。再继续扩?
每个小业务都独立建集群?那集群数量得爆炸,运维团队直接累死。共享集群?资源争抢、隔离困难、计费模糊,这些问题一个都绕不开。
你们公司是不是也这样:业务发展快了,一个Doris集群不够用,就搞了好几个。交易数据在A集群,物流数据在B集群,用户画像在C集群。
各家扎堆发模型,光国内从元旦到除夕就更新了30多次,字节、智谱、月之暗面、阿里、MiniMax轮番上阵。字节这次风头最盛——Seedance 2.0直接上了春晚...
本章节聚焦谷歌、英伟达、阿里云等全球 AI 与算力产业龙头发布的 OCS 相关特邀报告、高分论文,覆盖 OCS 在 AI 超算集群的规模化落地实践、...
今天这篇文章就把我从零开始搭建 Ceph 集群的过程完整记录下来,全程基于 Ubuntu 22.04 LTS,使用的是官方推荐的 cephadm 工具。无论是 ...
本文基于大会已公布的官方议程,完整梳理NVIDIA、Google、Meta、博通(Broadcom)等AI与芯片巨头,Coherent、Ciena、...
注意这里有个关键设计:CI 不直接操作集群。CI 只负责改 Git 仓库,ArgoCD 负责把 Git 里的状态同步到集群。这就是 push 模式和 pull ...
本次更新不仅增强了服务器日志中用户数据的隐私保护,还显著提升了集群模式下的稳定性与内存管理能力。下面我们将从安全修复、Bug 修复、性能优化以及配置参数改进等多...
Oracle运维常见崩溃场景:监控显示异常空闲会话,执行Kill命令报错ORA-00030(会话ID不存在),OS层强杀进程后,GV$SESSION仍有“鬼影”...
比如电商平台的「全国商品销量榜」,用户广泛分布于华北、华东、华南三大核心区域,需在这三个地域分别部署 Kafka 集群,各区域用户行为数据直接写入本地 Kafk...
本文内容基于以太网联盟2025年TEF(Ethernet for AI)大会上,Meta AI架构师Halil Cirit的主题演讲《Transit...
我把话放这儿:只要你有一台能联网的Linux机器(甚至虚拟机),跟着我这篇走,半小时内你要是跑不起来一个带Ingress、带存储的K8s集群,我把键盘吃了。
外网一位技术博主曾录制过一期趣味十足的技术视频,视频中他详细分享了自己从4台NVIDIA DGX Spark硬件入手,逐步扩展至8台、搭建大模型训练与推理集群的...
A: NVIDIA 最近在 GitHub 上发布了详细的性能指南,可以在 build.nvidia.com/spark 页面找到链接。该指南提供了如何使用不同框...
2026年2月10日,Kubernetes 社区一次性发布了4个重要版本的更新:v1.35.1、v1.34.4、v1.33.8 和 v1.32.12。这是今年首...
ClusterIP 是 Kubernetes 服务网格的基石。它屏蔽了后端 Pod 的动态变化(IP 会变、数量会变),为集群内部提供了稳定的服务入口和自动负载...
如果说 ClusterIP 是为集群内部提供服务的“内网地址”,那么 NodePort 就是为集群外部打开的一扇“窗户”。它允许外部流量通过集群中每个节点(No...
如果说 ClusterIP 是内网地址,NodePort 是在每个节点上开窗户,那么 LoadBalancer 就是云厂商为你专门搭建的一座外部桥梁。它会自动请...
为什么想起来看版本发布文档,因为集群从1.34升级到1.35版本的时候发现升级失败了,就回头来看官方发布文档,找到了关键内容,具体的升级内容,这边重新再写一篇分...