首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CSDN技术头条

    腾讯大规模Hadoop集群实践

    建设单个大规模集群的原因 随着业务的快速增长,TDW的节点数也在增加,对单个大规模Hadoop集群的需求也越来越强烈。 TDW需要做单个大规模集群,主要是从数据共享、计算资源共享、减轻运营负担和成本等三个方面考虑。 1. 数据共享。 当一个集群的计算资源由于某些原因变得紧张时,例如需要数据补录时,这个集群的计算资源就捉襟见肘,而同时,另一个集群的计算资源可能空闲,但这两者之间没有做到互通有无。 3. 减轻运营负担和成本。 建设单个大规模集群的方案及优化 面临的挑战 TDW从单集群400台规模建设成单集群4000台规模,面临的最大挑战是Hadoop架构的单点问题:计算引擎单点JobTracker负载重,使得调度效率低、集群扩展性不好 结语 TDW从实际情况出发,采取了一系列的优化措施,成功实施了单个大规模集群的建设。为了满足用户日益增长的计算需求,TDW正在进行更大规模集群的建设,并向实时化、集约化方向发展。

    2.1K71发布于 2018-02-07
  • 来自专栏东风微鸣技术博客

    大规模 IoT 边缘容器集群管理的几种架构-3-Portainer

    前文回顾 1.大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介[1]2.大规模 IoT 边缘容器集群管理的几种架构-1-Rancher+K3s[2]3.大规模 IoT 边缘容器集群管理的几种架构 -2-HashiCorp 解决方案 Nomad[3]4.大规模 IoT 边缘容器集群管理的几种架构-3-Portainer[4] ️Reference: IoT 边缘计算系列文章[5] Portainer Portainer User Interface - Multiple endpoints •通过快速部署应用和集中容器管理来节省时间•通过快速管理和保护集群来降低风险•使用合理的默认值将复杂性降至最低 ,让您的团队保持在正确的轨道上•Portainer 为您提供混合和多云、多集群、多设备、容器管理 有专门的针对边缘容器的解决方案和功能 -- 在边缘释放容器的力量,以简单安全的方式在边缘管理 Docker •效率: 使用边缘设备组轻松大规模部署和更新应用程序。•降低边缘项目所需的员工技能水平: Portainer 精心设计的 UI 使非 IT 专家能够在日常业务中完成专家任务。

    69210编辑于 2023-09-15
  • 来自专栏开源部署

    Firmament – 大规模集群任务调度

    本篇文章就以此为背景,介绍大规模调度场景下分布式任务调度的难点、解决策略及现有的一些方案。 对于大规模的计算集群也一样,应用程序由群集上的多个任务(通常在不同的主机上)组成。集群调度程序基本上必须解决: 多租户: 在群集上,许多用户代表多个组织启动了许多不同的应用程序。 Firmament 调度 Firmament 通过对调度算法的优化使得大规模计算集群的任务调度可以很好地在性能和准确之间找到平衡。 schedulerName: poseidon containers: - name: cpuspin image: firmament/libhdfs3 有些类似梯度递减形式的机器学习模型可以开始应用在调度上,已经有一些公司在做相关的探索,相信在未来大规模分布式调度会变得越来越重要。

    98830编辑于 2022-07-24
  • 来自专栏曲径通幽

    Kubernetes 大规模集群最佳实践

    Kubernetes 搭建大规模集群最佳实践 Kubernetes 自 v1.6 以来,官方就宣称单集群最大支持 5000 个节点。 缺省值是 1024 net.ipv4.neigh.default.gc_thresh3=8192 # 以上三个参数,当内核维护的 arp 表过于庞大时候,可以考虑优化 # 允许的最大跟踪连接条目,是在内核内存中 eth0 parent 1: protocol ip prio 2 u32 match ip dport 2379 0xffff flowid 1:1 分离 Kubernetes events 存储 为了在大规模集群下提高性能 medium 6-10 节点: m3.large 11-100 节点: m3.xlarge 101-250 节点: m3.2xlarge 251-500 节点: c4.4xlarge 超过 500 节点 参考材料 Building large clusters Scaling Kubernetes to 2,500 Nodes Kubernetes 大规模集群 大规模集群配置优化

    2.7K00发布于 2020-03-08
  • 来自专栏云云众生s

    OVHcloud 启用大规模 Kubernetes 集群管理

    大规模 Kubernetes 集群管理的帮助 在 KubeCon Paris 2024 上,OVHcloud 将宣布一款名为 OVHcloud Managed Rancher Service 的新产品, 这是一个完全开源、自助、现成的平台,公司可以使用它来管理 Kubernetes 集群。 值得注意的是,Managed Rancher Service 为多云和混合云场景提供支持,使公司能够轻松管理和编排 K8s 集群,无论它们来自公有云还是私有云、内部部署基础设施、第三方或其他来源。 “Rancher 将帮助他们管理工作负载并在不同容量的 K8s 集群中编排,无论是在我们的云中,还是作为我们云和他们自己的内部部署设施的混合解决方案的一部分,甚至与其他服务提供商一起。” 对于在多个服务提供商的数据中心中运营多个 K8s 集群的公司而言,这是一个特别的挑战,因为 K8s 集群管理出了名的复杂。

    42710编辑于 2024-05-15
  • 来自专栏Technology Share

    大规模 codis 集群的治理与实践

    面对以上挑战,经过多维度的方案选型对比,最终选择了基于codis(3.x版本),结合内部需求和运营环境进行了定制化改造,截止到目前,初步实现了一个支持单机/分布式存储、平滑扩缩容、超大key迁移、高可用 他在农历春节期间就快马加鞭实现了异步迁移原型,在这过程中我们协助其测试、反馈BUG和瓶颈、不断改进、优化迁移性能,最终异步迁移不仅支持任意大小Key迁移,而且迁移性能相比同步迁移要快5-6倍,我们也是第一个在线上大规模应用实践 在运维管理系统上,提交迁移指令,Dashboard更新ZooKeeper上哈希槽状态为待迁移,即返回(时序图1,2,3步骤)。 基于Quorum的分布式探测Agent,如Redis的Sentinel,Sentinel在新浪微博等公司已经进行了较大规模应用,Codis也是基于此实现主备自动切换,我们在此基础上增加了告警和当网络出现分区时 80% Proxy机器多实例部署(进行中) 3 .多租户 小业务通过在key前缀增加业务标识,复用相同集群 大业务使用独立集群,独立机器 4.数据安全及备份 访问所有Redis实例都需要鉴权 Proxy

    7K55发布于 2017-11-01
  • 来自专栏开源部署

    Sun Grid Engine 大规模集群监控

    Sun Grid Engine 大规模集群监控 #!/usr/bin/perl #! /bin/bash ## 最近查看队列使用情况 发现如下问题,用户使用SGE 集群的时候内存溢出 ## 此程序用于查看SGE (Sun Grid Engine) 整体集群监控 ##仅以此程序,帮助大家查看 $out{$tab[3]}{'queue'}{$queue}++;         }         else         {             $out{$tab[3]}{'queue'} ;     ###### ..sort     if ($Sort eq "name")     {         $For_sort{$tab[3]}=$tab[3];     }     elsif $out{$tab[3]}{'status'}{$tab[4]}++;     }     else     {         $out{$tab[3]}{'status'}{$tab[4]}=1;

    78710编辑于 2022-06-29
  • 来自专栏深度学习与python

    Pinterest 大规模缓存集群的架构剖析

    本文中,我们将对支持 Pinterest 的大规模缓存集群的架构进行深入的技术研究。 3计算和存储效率 Memcached 的效率很高:单个 r5.2xlarge EC2 实例每秒能支持超过 10 万个请求和数以万计的并发 TCP 连接,同时不会显着地增加客户端的延迟。 mcrouter 中的流量路由功能使我们可以进行各种弹性测试,包括集群集群的暗流量以及在实际生产请求中人为加入的延迟和停机时间的测试,而不会影响生产。 ,针对位于基于闪存的容量集群后方的基于内存集群的 L1L2 路由(具有穿透)等。 我们管理维护着约一百个不同的 Memcached 集群,其中,许多集群具有不同的租户(tenancy)特征(专用与共享)、硬件实例类型和路由策略。

    68830编辑于 2023-04-01
  • 来自专栏python3

    集群3

    所以安装ldirectord 服务会具有健康检查功能 3.将ldirectord服务加入heartbeat 服务中 先将server11 && server12中的httpldirectord服务关掉并删掉虚拟网络 测试2 当集群中server11关掉hearbeat服务时server12会自动接管服务而且客户端会正常工作 ? ? ?

    47720发布于 2020-01-14
  • 来自专栏东风微鸣技术博客

    大规模 IoT 边缘容器集群管理的几种架构-1-Rancher+K3s

    前文回顾 大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介[1] ️Reference: IoT 边缘计算系列文章[2] Rancher + K3s Rancher K3s 简介 K3s 被打包成一个<60MB的二进制文件,减少了安装、运行和自动更新一个生产型 Kubernetes 集群所需的依赖性和步骤。ARM64 和 ARMv7 都被支持,二进制文件和多架构镜像都可以使用。 •“云”中部署一套 Rancher 集群,Rancher 负责管理下属所有的“边”中的 K3s 集群,Rancher 集群中同时可以部署云端的业务应用,负责和边缘侧业务系统同步, 以及下发数据或指令。 K3S 集群,如观测各个 K3s 集群运行状态,其上业务应用运状态等; 同 时 Rancher 所在集群中部署的云端业务应用可向边缘侧业务应用下发数据或指令 。 •边缘自治: 无论网络如何,边缘侧 K3s 集群均可以自行运行(就是一套精简的 K8s), 无需依赖云端 Rancher, 实现运行环境的边缘自治;其上运行的边缘侧业务应用如果不依赖云端应用即可正常运行

    1K30编辑于 2023-09-15
  • 来自专栏田飞雨的专栏

    大规模场景下 kubernetes 集群的性能优化

    3、apiserver 的负载均衡 通常为了保证集群的高可用,集群中一般会有多个 master 节点,kubelet 的连接也会被均分到不同的 apiserver,在 k8s v1.10 以前的版本中, 六、kube-proxy 优化 1、使用 ipvs 模式 由于 iptables 匹配时延和规则更新时延在大规模集群中呈指数增长,增加以及删除规则非常耗时,所以需要转为 ipvs,ipvs 使用 hash 八、客户端优化 在大规模场景下,集群中所有的 daemonset、webhook 以及 operator 等组件非常多,每个客户端都要从 apiserver 中获取资源,此时对 apiserver 的压力非常大 在大规模集群场景,服务可能会因高峰期资源不足导致响应慢等问题,对于某些应用时间内 HPA 或者 VPA 都不是件容易的事情。 参考: eBay应用程序集群管理器TESS.IO在大规模集群下的性能优化 Meet a Kubernetes Descheduler 网易云基于Kubernetes的深度定制化实践 开放下载《阿里巴巴云原生实践

    3.6K11发布于 2019-12-15
  • 来自专栏IT创事记

    3M助力阿里巴巴全球大规模液冷集群,全面践行“绿色科技”理念

    3M牵手阿里巴巴打造一届“绿色科技”的双十一。 2135亿元成交额,6.01亿消费者,17.18亿条/秒峰值计算处理能力,2018年的阿里巴巴双十一狂欢节再一次刷新了历史。 作为阿里巴巴绿色数据中心节能理念的核心“黑科技”,3M氟化冷却液助力浸没式液冷服务器集群,全程见证、并经受住了阿里巴巴2018年双11巨大的考验。 在阿里巴巴冬奥云数据中心使用3M氟化冷却液的浸没式液冷服务器集群,可以不再依赖风扇、空调这些低效方式散热,节能70%以上,使得数据中心的PUE值达到1.07,逼近了理论极限值1.0,大大提升了能源使用效率 据悉,阿里巴巴已经联手全球几十家合作伙伴,从芯片到主板到服务器整机,从光模块到箱体及运营管理,形成全球互联网行业的大规模商用液冷集群。 “未来,我们也希望携手更多像3M这样的合作伙伴一起联合创新,共同打造更绿色节能的数据中心。”3M也将会继续和阿里巴巴共同加大在数据中心节能领域的投入,在更多的业务方向上进行全方位的合作。

    72210编辑于 2022-06-17
  • 来自专栏技术杂记

    Consul 集群3

    192.168.100.103:8301 alive client 0.6.4 2 dc1 [root@docker ~]# Tip: 如果有多个成员,也只用加入一个节点,其它节点会在这个节点加入集群后通过成员间的通讯相互发现

    45420编辑于 2021-12-01
  • 来自专栏技术杂记

    ZooKeeper 集群3

    依次关掉服务 当前状态 [root@h101 zk]# zookeeper-3.4.6/bin/zkServer.sh status JMX enabled by default Using config: /root/zk/zookeeper-3.4.6/bin/../conf/zoo.cfg Mode: follower [root@h101 zk]# zookeeper-3.4.6.1/bin/zkServer.sh status JMX enabled by default Using conf

    27330编辑于 2022-03-25
  • 来自专栏技术杂记

    etcd 集群3

    2380 用来进行节点间通讯 Tip: CentOS Linux 7 中使用的 firewalld 来管理防火墙设置 Note: 其它节点也要确保这两个端口是开放的,否则无法正常工作 ---- 配置启动集群

    33020编辑于 2022-01-19
  • 来自专栏CNCF

    治大国若烹小鲜,大规模Kubernetes集群的运营哲学

    治大国若烹小鲜,大规模Kubernetes集群的运营哲学 鲍永成 TIGCHAT 昨天 ? 其实不然,集群运营,特别是大规模集群运营,需要丰富的经验,成熟的体系,辅助的工具链等等,因此其难度并不亚于开发一套大型系统。所谓治大国若烹小鲜,集群需要精细化的运营,对于细节的要求更是严格甚至苛刻。 借助于运营数据的收集和可视化,我们发现了更多在集群规模扩充时可能发生瓶颈的潜在问题,也对其进行了优化处理。 etcd 的容量。etcd 默认是 2G 的容量,在大规模集群下很容易达到瓶颈。 运营工具 大规模的运营需要成套的运营工具链进行辅助,缓解运营人员的工作压力,同时也提供更为自动化的流程,对整个集群提供更为稳固的保障。 在运营了大规模 Kubernetes 集群之后,我们对更高的技术层次发起了挑战,那就是调度。下一章预告《第三章:庖丁解牛,调度的框架与策略》。

    70920发布于 2019-12-06
  • 来自专栏CSDN技术头条

    Google的大规模集群管理系统Borg(上篇)

    摘要:Google的Borg系统是一个运行着成千上万项作业的集群管理器,它同时管理着很多个应用集群,每个集群都有成千上万台机器,这些集群之上运行着Google的很多不同的应用。 Borg不是解决这些问题的第一个系统,但它是在能够保证最大弹性和完整性情况下,以大规模运行的少数几个系统之一。 本文将主要围绕这些主题进行组织,并从Borg投入生产,这十多年来的使用经验作为总结 。 2.2 集群和单元 单元中的机器属于单个集群,由连接它们的高性能数据中心规模的网络架构定义。 一个集群位于单个数据中心大楼内,大厦集合构成一个站点。 它提供比最适合我们工作负载约3-5%的更好的包装效率(在[78]中定义)。 4.可用性 故障是大规模系统中的常态[10,11,22]。图3提供了15个样本cell中任务驱逐原因的分解。

    2.7K90发布于 2018-02-12
  • 来自专栏日常杂记

    关于较大规模hadoop集群的小文件问题

    上一遍记录了当时集群资源死锁的问题,后来想了想其实小文件较多也会让集群变慢,小文件较多在执行作业时rpc时间就会增加,从而拖垮了job的执行速度。 在数据进入集群之前,将小文件进行合并 2. 小文件写入集群之后,定期合并小文件 3. 使用HBase存储数据 4. 对于已经在集群上的运算结果,采取文件合并的方式 由于不同的引擎,相应使用的方法不同,目前集群主要使用了hive,Impala,Spark进行数据计算。

    2K20发布于 2021-01-06
  • 来自专栏大数据架构

    大规模 Spark 集群灰度发布 CI CD

    注: 蓝色圆形是正常 commit 垂直虚线是发布时间点,week 1、week 2、week 3、week 4 最上方黑色粗横线是源码时间线 下方黄色粗横线是 release 时间线 绿色方框是每周生成的 它包含了之前所有的提交(commit 1、2、3、4) spark-bin.git/dev 的 spark 作为 symbolic 指向 spark-${ build \# } 文件夹内(如图中第 2 立即将 spark-src.git/dev 打包生成 release 并 commit 到 spark-bin.git/dev 的 spark-${ build \# } (如图中上方的 spark-3 而该 rebase 可能再次发生冲突 bug fix 修复的是当前 spark-bin.git/dev 的 bug,即图中的 commit 1、2、3、4 后的 bug,而 bug fix commit /prod 未包含该 bugfix (它只包含了 commit 2、3、4 而不包含 commit 5、9)。

    1.8K41发布于 2018-10-11
  • 来自专栏QQ大数据团队的专栏

    深入腾讯云TBDS:大规模HDFS集群优化实战

    HDFS被设计用来在大规模的廉价服务器集群上可靠地存储大量数据, 并提供高吞吐的数据读取和写入,具备高可用、高容错、高吞吐、低成本、数据本地性等特点。 01、集群横向扩容 单个ActiveNameNode在大规模集群的局限性主要体现在: 1. 数据规模受限,NameNode内存使用和元数据量正相关,具有内存瓶颈。 2. 尽管社区也通过editlog异步化、DU请求采用分段锁等一系列措施来优化读写性能,但并未从根本上解决锁的影响,对于大规模集群难以满足生产场景。 HDFS重启速度主要受限于: NameNode串行加载fsimage;大规模集群下该文件可达几十G。 3.

    1.6K32编辑于 2024-06-03
领券