首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CSDN技术头条

    腾讯大规模Hadoop集群实践

    建设单个大规模集群的原因 随着业务的快速增长,TDW的节点数也在增加,对单个大规模Hadoop集群的需求也越来越强烈。 TDW需要做单个大规模集群,主要是从数据共享、计算资源共享、减轻运营负担和成本等三个方面考虑。 1. 数据共享。 十几个集群同时需要稳定运营,而且当一个集群的问题解决时,也需要解决其他集群已经出现的或者潜在的问题。一个Hadoop版本要在十几个集群逐一变更,监控系统也要在十几个集群上部署。 建设单个大规模集群的方案及优化 面临的挑战 TDW从单集群400台规模建设成单集群4000台规模,面临的最大挑战是Hadoop架构的单点问题:计算引擎单点JobTracker负载重,使得调度效率低、集群扩展性不好 结语 TDW从实际情况出发,采取了一系列的优化措施,成功实施了单个大规模集群的建设。为了满足用户日益增长的计算需求,TDW正在进行更大规模集群的建设,并向实时化、集约化方向发展。

    2.1K71发布于 2018-02-07
  • 来自专栏曲径通幽

    Kubernetes 大规模集群最佳实践

    Kubernetes 搭建大规模集群最佳实践 Kubernetes 自 v1.6 以来,官方就宣称单集群最大支持 5000 个节点。 inotify instance相关联的watches的上限 fs.inotify.max_user_watches=524288 ETCD 存储 磁盘 IOPS ETCD 对磁盘写入延迟非常敏感,对于负载较重的集群 eth0 parent 1: protocol ip prio 2 u32 match ip dport 2379 0xffff flowid 1:1 分离 Kubernetes events 存储 为了在大规模集群下提高性能 operator: In values: - kube-dns topologyKey: kubernetes.io/hostname 以上是配置和方案层面的大集群优化思路 参考材料 Building large clusters Scaling Kubernetes to 2,500 Nodes Kubernetes 大规模集群 大规模集群配置优化

    2.7K00发布于 2020-03-08
  • 来自专栏开源部署

    Firmament – 大规模集群任务调度

    本篇文章就以此为背景,介绍大规模调度场景下分布式任务调度的难点、解决策略及现有的一些方案。 这些年发展迅速的Kubernetes也包含调度器,其本质上还是面向应用运行层面,默认调度器的策略比较丰富,扩展性也比较好,但在面对大规模的调度时,吞吐性能表现不是那么完美。 对于大规模的计算集群也一样,应用程序由群集上的多个任务(通常在不同的主机上)组成。集群调度程序基本上必须解决: 多租户: 在群集上,许多用户代表多个组织启动了许多不同的应用程序。 Firmament 调度 Firmament 通过对调度算法的优化使得大规模计算集群的任务调度可以很好地在性能和准确之间找到平衡。 有些类似梯度递减形式的机器学习模型可以开始应用在调度上,已经有一些公司在做相关的探索,相信在未来大规模分布式调度会变得越来越重要。

    98030编辑于 2022-07-24
  • 来自专栏云云众生s

    OVHcloud 启用大规模 Kubernetes 集群管理

    大规模 Kubernetes 集群管理的帮助 在 KubeCon Paris 2024 上,OVHcloud 将宣布一款名为 OVHcloud Managed Rancher Service 的新产品, 这是一个完全开源、自助、现成的平台,公司可以使用它来管理 Kubernetes 集群。 值得注意的是,Managed Rancher Service 为多云和混合云场景提供支持,使公司能够轻松管理和编排 K8s 集群,无论它们来自公有云还是私有云、内部部署基础设施、第三方或其他来源。 “Rancher 将帮助他们管理工作负载并在不同容量的 K8s 集群中编排,无论是在我们的云中,还是作为我们云和他们自己的内部部署设施的混合解决方案的一部分,甚至与其他服务提供商一起。” 对于在多个服务提供商的数据中心中运营多个 K8s 集群的公司而言,这是一个特别的挑战,因为 K8s 集群管理出了名的复杂。

    41110编辑于 2024-05-15
  • 来自专栏开源部署

    Sun Grid Engine 大规模集群监控

    Sun Grid Engine 大规模集群监控 #!/usr/bin/perl #! /bin/bash ## 最近查看队列使用情况 发现如下问题,用户使用SGE 集群的时候内存溢出 ## 此程序用于查看SGE (Sun Grid Engine) 整体集群监控 ##仅以此程序,帮助大家查看

    78510编辑于 2022-06-29
  • 来自专栏Technology Share

    大规模 codis 集群的治理与实践

    ,在零运维的支持下如何高效治理众多业务集群? RDS,架构类似Codis, 腾讯云集群版是基于内部Grocery。 Scheduler:调度服务,负责对业务接入申请单进行自动调度部署、集群自动化扩容、各集群运营数据统计等。 运维管理系统: Web可视化管理集群,提供业务接入、集群管理、容量管理、配置管理等功能。 他在农历春节期间就快马加鞭实现了异步迁移原型,在这过程中我们协助其测试、反馈BUG和瓶颈、不断改进、优化迁移性能,最终异步迁移不仅支持任意大小Key迁移,而且迁移性能相比同步迁移要快5-6倍,我们也是第一个在线上大规模应用实践 基于Quorum的分布式探测Agent,如Redis的Sentinel,Sentinel在新浪微博等公司已经进行了较大规模应用,Codis也是基于此实现主备自动切换,我们在此基础上增加了告警和当网络出现分区时

    6.9K55发布于 2017-11-01
  • 来自专栏深度学习与python

    Pinterest 大规模缓存集群的架构剖析

    本文中,我们将对支持 Pinterest 的大规模缓存集群的架构进行深入的技术研究。 Mcrouter 提供了解耦的控制平面和数据平面:Memcached 服务器集群的整个拓扑结构被划分为多个“池”(逻辑集群),而管理客户端和服务器池之间交互的请求路由策略和行为均被独立管理。 mcrouter 中的流量路由功能使我们可以进行各种弹性测试,包括集群集群的暗流量以及在实际生产请求中人为加入的延迟和停机时间的测试,而不会影响生产。 ,针对位于基于闪存的容量集群后方的基于内存集群的 L1L2 路由(具有穿透)等。 我们管理维护着约一百个不同的 Memcached 集群,其中,许多集群具有不同的租户(tenancy)特征(专用与共享)、硬件实例类型和路由策略。

    68130编辑于 2023-04-01
  • 来自专栏田飞雨的专栏

    大规模场景下 kubernetes 集群的性能优化

    六、kube-proxy 优化 1、使用 ipvs 模式 由于 iptables 匹配时延和规则更新时延在大规模集群中呈指数增长,增加以及删除规则非常耗时,所以需要转为 ipvs,ipvs 使用 hash 八、客户端优化 在大规模场景下,集群中所有的 daemonset、webhook 以及 operator 等组件非常多,每个客户端都要从 apiserver 中获取资源,此时对 apiserver 的压力非常大 十、动态调整 Pod 资源限制 参考:超大规模商用 K8s 场景下,阿里巴巴如何动态解决容器资源的按需分配问题? 在大规模集群场景,服务可能会因高峰期资源不足导致响应慢等问题,对于某些应用时间内 HPA 或者 VPA 都不是件容易的事情。 参考: eBay应用程序集群管理器TESS.IO在大规模集群下的性能优化 Meet a Kubernetes Descheduler 网易云基于Kubernetes的深度定制化实践 开放下载《阿里巴巴云原生实践

    3.6K11发布于 2019-12-15
  • 来自专栏大数据架构

    大规模 Spark 集群灰度发布 CI CD

    目前主流的代码管理工具有,Github、Gitlab等。本文所介绍的内容中,所有代码均托管于私有的 Gitlab 中。

    1.8K41发布于 2018-10-11
  • 来自专栏QQ大数据团队的专栏

    深入腾讯云TBDS:大规模HDFS集群优化实战

    HDFS被设计用来在大规模的廉价服务器集群上可靠地存储大量数据, 并提供高吞吐的数据读取和写入,具备高可用、高容错、高吞吐、低成本、数据本地性等特点。 01、集群横向扩容 单个ActiveNameNode在大规模集群的局限性主要体现在: 1. 数据规模受限,NameNode内存使用和元数据量正相关,具有内存瓶颈。 2. 多NS独立集群联邦 图三 独立HDFS集群分管不同的业务数据,实现降低单集群的元数据量。 尽管社区也通过editlog异步化、DU请求采用分段锁等一系列措施来优化读写性能,但并未从根本上解决锁的影响,对于大规模集群难以满足生产场景。 HDFS重启速度主要受限于: NameNode串行加载fsimage;大规模集群下该文件可达几十G。

    1.6K32编辑于 2024-06-03
  • 来自专栏CSDN技术头条

    Google的大规模集群管理系统Borg(上篇)

    摘要:Google的Borg系统是一个运行着成千上万项作业的集群管理器,它同时管理着很多个应用集群,每个集群都有成千上万台机器,这些集群之上运行着Google的很多不同的应用。 这个在我们内部称为Borg的集群管理系统,它负责权限控制、调度、启动、重新启动和监视全部的Google中运行的应用程序。本文将解释它是如何做到的。 Borg不是解决这些问题的第一个系统,但它是在能够保证最大弹性和完整性情况下,以大规模运行的少数几个系统之一。 本文将主要围绕这些主题进行组织,并从Borg投入生产,这十多年来的使用经验作为总结 。 2.2 集群和单元 单元中的机器属于单个集群,由连接它们的高性能数据中心规模的网络架构定义。 一个集群位于单个数据中心大楼内,大厦集合构成一个站点。 4.可用性 故障是大规模系统中的常态[10,11,22]。图3提供了15个样本cell中任务驱逐原因的分解。

    2.7K90发布于 2018-02-12
  • 来自专栏CNCF

    治大国若烹小鲜,大规模Kubernetes集群的运营哲学

    治大国若烹小鲜,大规模Kubernetes集群的运营哲学 鲍永成 TIGCHAT 昨天 ? 其实不然,集群运营,特别是大规模集群运营,需要丰富的经验,成熟的体系,辅助的工具链等等,因此其难度并不亚于开发一套大型系统。所谓治大国若烹小鲜,集群需要精细化的运营,对于细节的要求更是严格甚至苛刻。 借助于运营数据的收集和可视化,我们发现了更多在集群规模扩充时可能发生瓶颈的潜在问题,也对其进行了优化处理。 etcd 的容量。etcd 默认是 2G 的容量,在大规模集群下很容易达到瓶颈。 运营工具 大规模的运营需要成套的运营工具链进行辅助,缓解运营人员的工作压力,同时也提供更为自动化的流程,对整个集群提供更为稳固的保障。 在运营了大规模 Kubernetes 集群之后,我们对更高的技术层次发起了挑战,那就是调度。下一章预告《第三章:庖丁解牛,调度的框架与策略》。

    70620发布于 2019-12-06
  • 来自专栏日常杂记

    关于较大规模hadoop集群的小文件问题

    上一遍记录了当时集群资源死锁的问题,后来想了想其实小文件较多也会让集群变慢,小文件较多在执行作业时rpc时间就会增加,从而拖垮了job的执行速度。 在数据进入集群之前,将小文件进行合并 2. 小文件写入集群之后,定期合并小文件 3. 使用HBase存储数据 4. 对于已经在集群上的运算结果,采取文件合并的方式 由于不同的引擎,相应使用的方法不同,目前集群主要使用了hive,Impala,Spark进行数据计算。

    2K20发布于 2021-01-06
  • 来自专栏数据社

    快手超大规模集群调度优化实践

    导读:随着公司业务的快速发展,离线计算集群规模和提交的作业量持续增长,如何支撑超大规模集群,如何满足不同场景的调度需求成为必须要解决的问题。 随着集群规模增长和队列数目的增加,调度耗时越来越长,调度吞吐成为制约集群规模的主要瓶颈。 基于集群状态做全局批量调度 ? 04 其他工作&未来规划 支持超大规模集群: 主要目标支撑十万量级的集群规模,目前基于社区的federation方案进行改造。 Hadoop跨IDC集群建设: 受限于公司物理集群规划,离线集群会分布在不同的IDC,如何基于有限的跨IDC带宽,对数据和计算进行合理排布,是一个非常有挑战的问题。

    1.4K20发布于 2021-03-11
  • 来自专栏CNCF

    大规模 Kubernetes 集群上实现高 SLO 的方法

    随着生产环境不断发展、K8s 集群越来越复杂、集群规模不断增大。如何保障大规模环境 K8s 集群的可用性?是摆在众多厂家面前的一个难题。 对于 K8s 集群,我们通常关心以下几个问题: 第一个问题就是集群是否健康,所有组件是否正常工作,集群中 Pod 创建的失败数量有多少,这是一个整体指标的问题。 最后,我们要通过优化手段,消除集群的异常。 ? SLls on Large K8s Cluster 我们先来看下集群的一些指标。 ? 第一项指标:集群健康度。 集群故障机并须做到“快速发现,快速隔离,及时修复”,毕竟故障机会对集群容量造成影响。 ? 每多一个不可用的节点,都代表着集群交付能力的下降,也代表着集群可用资源的下降,这就要求尽量保证集群内节点高可用;每一次 pod 交付/删除/升级失败,也意味着用户使用成本上升,体验下降,这就要求集群节点只有保证良好的健康度

    1.6K30发布于 2020-11-09
  • 来自专栏大数据文摘

    基于Hadoop集群大规模分布式深度学习

    目前,Hadoop集群已成为Yahoo大规模机器学习的首选平台。 ? 深度学习(Deep Learning, DL)是雅虎很多产品的核心技术需求。 业界现有的方法要求使用专用的集群,而基于Hadoop的深度学习不仅能达到专用集群的效果,还额外多出上述几项优点。 增强Hadoop集群 为了支持深度学习,我们在Hadoop集群上添加GPU节点。 这些节点的处理能力是我们Hadoop集群所使用的传统CPU的10倍。 ? 在Hadoop集群上,GPU节点有两个独立网络接口,Ethernet和Infiniband。 Caffe-on-Spark让我们集Caffe与Spark二者之长处,将其应用于大规模深度学习,使深度学习任务如其它Spark应用一样易于操作。 集群中的多个GPU被用于训练基于HDFS大规模数据集的模型。 性能测试 Caffe-on-Spark支持(a)多个GPU,(b)多台机器进行深度学习。

    2K80发布于 2018-05-21
  • 来自专栏AI SPPECH

    122_集群管理:Slurm配置 - 优化大规模训练调度

    引言 在2025年,大规模语言模型(LLM)的训练已经进入到超大规模时代,模型参数量达到数千亿甚至万亿级别,训练过程需要动用数百甚至数千个GPU/TPU。 因此,掌握先进的Slurm管理技术对于成功训练大规模语言模型至关重要。 1. 大规模集群管理最佳实践 9.1 节点健康检查 定期检查节点健康状态: #! 根据工作负载动态调整计算节点功耗 可再生能源调度:在可再生能源可用性高时调度计算密集型任务 碳感知调度器:优化作业调度以最小化碳足迹 资源效率分析:详细报告每个作业的能源消耗和碳排放 结论 Slurm作为大规模集群管理的事实标准 未来,Slurm将继续向云原生、AI感知和可持续计算方向发展,为大规模语言模型的训练提供更强大、更智能的管理工具。掌握先进的Slurm管理技术,将成为成功训练下一代超大规模语言模型的关键能力。

    89510编辑于 2025-11-16
  • 来自专栏CSDN技术头条

    基于Hadoop集群大规模分布式深度学习

    前言 在过去的十年里,Yahoo一直持续投资建设和扩展Apache Hadoop集群,到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。 目前,Hadoop集群已成为Yahoo大规模机器学习的首选平台。 ? 深度学习(Deep Learning, DL)是雅虎很多产品的核心技术需求。 业界现有的方法要求使用专用的集群,而基于Hadoop的深度学习不仅能达到专用集群的效果,还额外多出上述几项优点。 增强Hadoop集群 为了支持深度学习,我们在Hadoop集群上添加GPU节点。 Caffe-on-Spark让我们集Caffe与Spark二者之长处,将其应用于大规模深度学习,使深度学习任务如其它Spark应用一样易于操作。 集群中的多个GPU被用于训练基于HDFS大规模数据集的模型。 性能测试 Caffe-on-Spark支持(a)多个GPU,(b)多台机器进行深度学习。

    797100发布于 2018-02-11
  • 来自专栏GPUS开发者

    基于Hadoop集群大规模分布式深度学习

    前言 在过去的十年里,Yahoo一直持续投资建设和扩展Apache Hadoop集群,到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。 目前,Hadoop集群已成为Yahoo大规模机器学习的首选平台。 深度学习(Deep Learning, DL)是雅虎很多产品的核心技术需求。 避免了数据在Hadoop集群和深度学习集群之间的不必要传输。 深度学习可以被定义为一流的Apache Oozie工作流,使用Hadoop进行数据处理和Spark管道进行机器学习。 业界现有的方法要求使用专用的集群,而基于Hadoop的深度学习不仅能达到专用集群的效果,还额外多出上述几项优点。 增强Hadoop集群 为了支持深度学习,我们在Hadoop集群上添加GPU节点。 这些节点的处理能力是我们Hadoop集群所使用的传统CPU的10倍。 在Hadoop集群上,GPU节点有两个独立网络接口,Ethernet和Infiniband。

    96380发布于 2018-03-30
  • 来自专栏大数据

    大规模Hadoop集群管理:运维经验与监控策略

    一、生产环境部署的隐形战场在某次跨城数据中心迁移项目中,我们曾遇到一个典型的Hadoop集群部署困境。 磁盘规划方面,我们独创了"冷热盘分离"策略,将NameNode的元数据日志单独挂载SSD,使集群元数据操作性能提升40%。 运维启示录:集群的稳定性不在于处理故障的能力,而在于预见故障的智慧。 某高性能计算集群通过内核参数调优,使MapReduce任务完成时间缩短22%。 八、智能运维的未来图景在某智慧城市的超大规模集群中,我们构建了AI运维中台:通过LSTM模型预测集群负载,结合强化学习进行参数调优推荐。系统每日处理2TB运维数据,自动生成《健康度诊断报告》。

    45421编辑于 2025-09-12
领券