搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏东风微鸣技术博客
大规模 IoT 边缘容器集群管理的几种架构-5-总结
前文回顾 1.大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介[1]2.大规模 IoT 边缘容器集群管理的几种架构-1-Rancher+K3s[2]3.大规模 IoT 边缘容器集群管理的几种架构 -2-HashiCorp 解决方案 Nomad[3]4.大规模 IoT 边缘容器集群管理的几种架构-3-Portainer[4]5.大规模 IoT 边缘容器集群管理的几种架构-4-Kubeedge[5] 大/超大规模边缘2. 大型公司：大/超大规模边缘2. 边缘网络特别复杂3. 然后引出本文的重心：IoT 边缘容器集群管理的几种架构。
43710编辑于 2023-09-15
来自专栏CSDN技术头条
腾讯大规模Hadoop集群实践
建设单个大规模集群的原因随着业务的快速增长，TDW的节点数也在增加，对单个大规模Hadoop集群的需求也越来越强烈。 TDW需要做单个大规模集群，主要是从数据共享、计算资源共享、减轻运营负担和成本等三个方面考虑。 1. 数据共享。建设单个大规模集群的方案及优化面临的挑战 TDW从单集群400台规模建设成单集群4000台规模，面临的最大挑战是Hadoop架构的单点问题：计算引擎单点JobTracker负载重，使得调度效率低、集群扩展性不好（5）DataNode双报。Block副本所在的节点列表是NameNode元数据信息的一部分，为了保证这部分信息在主备间一致性，DataNode采用双报机制。结语 TDW从实际情况出发，采取了一系列的优化措施，成功实施了单个大规模集群的建设。为了满足用户日益增长的计算需求，TDW正在进行更大规模集群的建设，并向实时化、集约化方向发展。
2.1K71发布于 2018-02-07
来自专栏开源部署
Firmament – 大规模集群任务调度
本篇文章就以此为背景，介绍大规模调度场景下分布式任务调度的难点、解决策略及现有的一些方案。对于大规模的计算集群也一样，应用程序由群集上的多个任务(通常在不同的主机上)组成。集群调度程序基本上必须解决：多租户: 在群集上，许多用户代表多个组织启动了许多不同的应用程序。 Firmament 调度 Firmament 通过对调度算法的优化使得大规模计算集群的任务调度可以很好地在性能和准确之间找到平衡。 Kubernetes 支持多调度器机制，可以在 Pod 的定义中指定使用哪个调度器，具体示例如下： apiVersion: batch/v1 kind: Job metadata: name: cpuspin5 spec: completions: 1 parallelism: 1 template: metadata: name: cpuspin5 labels:
98830编辑于 2022-07-24
来自专栏曲径通幽
Kubernetes 大规模集群最佳实践
Kubernetes 搭建大规模集群最佳实践 Kubernetes 自 v1.6 以来，官方就宣称单集群最大支持 5000 个节点。垃圾收集器在开始收集前，允许记录数超过这个数字 5 秒。 eth0 parent 1: protocol ip prio 2 u32 match ip dport 2379 0xffff flowid 1:1 分离 Kubernetes events 存储为了在大规模集群下提高性能 2379,http://etcd6:2379" Master 节点配置 GCE 推荐配置： 1-5 节点: n1-standard-1 6-10 节点: n1-standard-2 11-100 节点: 参考材料 Building large clusters Scaling Kubernetes to 2,500 Nodes Kubernetes 大规模集群 大规模集群配置优化
2.7K00发布于 2020-03-08
来自专栏云云众生s
OVHcloud 启用大规模 Kubernetes 集群管理
大规模 Kubernetes 集群管理的帮助在 KubeCon Paris 2024 上，OVHcloud 将宣布一款名为 OVHcloud Managed Rancher Service 的新产品，这是一个完全开源、自助、现成的平台，公司可以使用它来管理 Kubernetes 集群。值得注意的是，Managed Rancher Service 为多云和混合云场景提供支持，使公司能够轻松管理和编排 K8s 集群，无论它们来自公有云还是私有云、内部部署基础设施、第三方或其他来源。 “Rancher 将帮助他们管理工作负载并在不同容量的 K8s 集群中编排，无论是在我们的云中，还是作为我们云和他们自己的内部部署设施的混合解决方案的一部分，甚至与其他服务提供商一起。” 对于在多个服务提供商的数据中心中运营多个 K8s 集群的公司而言，这是一个特别的挑战，因为 K8s 集群管理出了名的复杂。
42710编辑于 2024-05-15
来自专栏Technology Share
大规模 codis 集群的治理与实践
解析请求时，计算key对应的哈希槽，将请求分发到对应的Redis，业务通过L5/CMLB进行寻址。令人惊喜膜拜的是，他在农历春节期间就快马加鞭实现了异步迁移原型，在这过程中我们协助其测试、反馈BUG和瓶颈、不断改进、优化迁移性能，最终异步迁移不仅支持任意大小Key迁移，而且迁移性能相比同步迁移要快5- 6倍，我们也是第一个在线上大规模应用实践Redis异步迁移的，更令人可喜的是此异步迁移方案击败了Redis作者antirez之前计划的多线程方案，将正式合入Redis 4.2版本。 Proxy:多机多IDC部署，调度服务会根据IDC ID，自动打散相同proxy,尽量保证同一集群proxy部署在不同IDC，通过L5和CMLB进行容灾。基于Quorum的分布式探测Agent,如Redis的Sentinel,Sentinel在新浪微博等公司已经进行了较大规模应用，Codis也是基于此实现主备自动切换，我们在此基础上增加了告警和当网络出现分区时
7K55发布于 2017-11-01
来自专栏开源部署
Sun Grid Engine 大规模集群监控
Sun Grid Engine 大规模集群监控 #!/usr/bin/perl #! /bin/bash ## 最近查看队列使用情况发现如下问题，用户使用SGE 集群的时候内存溢出 ## 此程序用于查看SGE (Sun Grid Engine) 整体集群监控 ##仅以此程序，帮助大家查看 -,-,- -,-,- 5,15,21.9 3 7.7 7120606,7120607,7120609 0.9,1,5.8 heh 35,105,22.1 -,-,- -,-,- 35,105,22.1 --- --- --- --- huangl 1,5,0.3 -,-,- -,-,- 1,5,0.3 --- --- --- --- jiangchb 49,98,19.3
78710编辑于 2022-06-29
来自专栏深度学习与python
Pinterest 大规模缓存集群的架构剖析
本文中，我们将对支持 Pinterest 的大规模缓存集群的架构进行深入的技术研究。 mcrouter 中的流量路由功能使我们可以进行各种弹性测试，包括集群到集群的暗流量以及在实际生产请求中人为加入的延迟和停机时间的测试，而不会影响生产。 5负载均衡和数据分片分布式系统的关键功能之一是水平可伸缩性，这是一种可以横向扩展而不是纵向扩展以适应额外的流量增长的能力。，针对位于基于闪存的容量集群后方的基于内存集群的 L1L2 路由（具有穿透）等。我们管理维护着约一百个不同的 Memcached 集群，其中，许多集群具有不同的租户（tenancy）特征（专用与共享）、硬件实例类型和路由策略。
68830编辑于 2023-04-01
来自专栏技术杂记
etcd 集群5
简单测试 [root@h104 ~]# curl http://127.0.0.1:2379/v2/keys/message -XPUT -d value="set by h104" {"action":"set","node":{"key":"/message","value":"set by h104","modifiedIndex":11,"createdIndex":11},"prevNode":{"key":"/message","value":"abc","modifiedIndex":10,"
32420编辑于 2022-01-19
来自专栏技术杂记
ZooKeeper 集群5
拷贝目录 [root@h101 zk]# rsync -av zookeeper-3.4.6-real root@192.168.100.102:/root/zk/zookeeper-3.4.6-real/ root@192.168.100.102's password: sending incremental file list created directory /root/zk/zookeeper-3.4.6-real zookeeper-3.4.6-real/ zookeeper-3.4.6-r
29430编辑于 2022-03-25
来自专栏技术杂记
Consul 集群5
脱离集群可以使用 Ctrl-C 来平滑地退出，也可以强行Kill退出，区别是主动告知其它节点自己的离开，和被其它节点标记为失效，被发现离开 ---- 健康检查健康检查对于避免将请求发送给运行不正常的服务是一个相当关键的机制
56520编辑于 2021-12-01
来自专栏田飞雨的专栏
大规模场景下 kubernetes 集群的性能优化
六、kube-proxy 优化 1、使用 ipvs 模式由于 iptables 匹配时延和规则更新时延在大规模集群中呈指数增长，增加以及删除规则非常耗时，所以需要转为 ipvs，ipvs 使用 hash 八、客户端优化在大规模场景下，集群中所有的 daemonset、webhook 以及 operator 等组件非常多，每个客户端都要从 apiserver 中获取资源，此时对 apiserver 的压力非常大十、动态调整 Pod 资源限制参考：超大规模商用 K8s 场景下，阿里巴巴如何动态解决容器资源的按需分配问题？在大规模集群场景，服务可能会因高峰期资源不足导致响应慢等问题，对于某些应用时间内 HPA 或者 VPA 都不是件容易的事情。参考： eBay应用程序集群管理器TESS.IO在大规模集群下的性能优化 Meet a Kubernetes Descheduler 网易云基于Kubernetes的深度定制化实践开放下载《阿里巴巴云原生实践
3.6K11发布于 2019-12-15
来自专栏CNCF
治大国若烹小鲜，大规模Kubernetes集群的运营哲学
治大国若烹小鲜，大规模Kubernetes集群的运营哲学鲍永成 TIGCHAT 昨天 ? 其实不然，集群运营，特别是大规模集群运营，需要丰富的经验，成熟的体系，辅助的工具链等等，因此其难度并不亚于开发一套大型系统。所谓治大国若烹小鲜，集群需要精细化的运营，对于细节的要求更是严格甚至苛刻。借助于运营数据的收集和可视化，我们发现了更多在集群规模扩充时可能发生瓶颈的潜在问题，也对其进行了优化处理。 etcd 的容量。etcd 默认是 2G 的容量，在大规模的集群下很容易达到瓶颈。运营工具 大规模的运营需要成套的运营工具链进行辅助，缓解运营人员的工作压力，同时也提供更为自动化的流程，对整个集群提供更为稳固的保障。在运营了大规模 Kubernetes 集群之后，我们对更高的技术层次发起了挑战，那就是调度。下一章预告《第三章：庖丁解牛，调度的框架与策略》。
70920发布于 2019-12-06
来自专栏CSDN技术头条
Google的大规模集群管理系统Borg（上篇）
摘要：Google的Borg系统是一个运行着成千上万项作业的集群管理器，它同时管理着很多个应用集群，每个集群都有成千上万台机器，这些集群之上运行着Google的很多不同的应用。 Borg的代表性工作负载情况可以从2011年5月的一个公开的月份跟踪中找到[80]，已经进行了广泛分析（例如[68]和[1,26,27,57]）。 2.2 集群和单元单元中的机器属于单个集群，由连接它们的高性能数据中心规模的网络架构定义。一个集群位于单个数据中心大楼内，大厦集合构成一个站点。它提供比最适合我们工作负载约3-5％的更好的包装效率（在[78]中定义）。 4.可用性故障是大规模系统中的常态[10,11,22]。图3提供了15个样本cell中任务驱逐原因的分解。
2.7K90发布于 2018-02-12
来自专栏日常杂记
关于较大规模hadoop集群的小文件问题
上一遍记录了当时集群资源死锁的问题，后来想了想其实小文件较多也会让集群变慢，小文件较多在执行作业时rpc时间就会增加，从而拖垮了job的执行速度。在数据进入集群之前，将小文件进行合并 2. 小文件写入集群之后，定期合并小文件 3. 使用HBase存储数据 4. 对于已经在集群上的运算结果，采取文件合并的方式由于不同的引擎，相应使用的方法不同，目前集群主要使用了hive，Impala，Spark进行数据计算。
2K20发布于 2021-01-06
来自专栏大数据架构
超大规模 Spark 集群灰度发布 CI CD
prod 经过了一个 release 周期的测试，稳定性强 Cons. hot fix 时，使用 cherry-pick，但 spark-src.git/dev（包含 commit 1、2、3、4、5）修复的是当前 spark-bin.git/dev 的 bug，即图中的 commit 1、2、3、4 后的 bug，而 bug fix commit 即 commit 9 的 base 是 commit 5，最新的 spark-bin.git/dev 包含了 bug fix，而最新的 spark-bin.git/prod 未包含该 bugfix （它只包含了 commit 2、3、4 而不包含 commit 5、如上图中，提交红色 commit 9 这一 hot fix 后，在 rebase 回 spark-src.git/master 时，如有冲突，可能需要修改 commit 2 或者 commit 3、4、5。
1.8K41发布于 2018-10-11
来自专栏QQ大数据团队的专栏
深入腾讯云TBDS：大规模HDFS集群优化实战
HDFS被设计用来在大规模的廉价服务器集群上可靠地存储大量数据, 并提供高吞吐的数据读取和写入，具备高可用、高容错、高吞吐、低成本、数据本地性等特点。 01、集群横向扩容单个ActiveNameNode在大规模集群的局限性主要体现在： 1. 数据规模受限，NameNode内存使用和元数据量正相关，具有内存瓶颈。 2. 多NS独立集群联邦图三独立HDFS集群分管不同的业务数据，实现降低单集群的元数据量。尽管社区也通过editlog异步化、DU请求采用分段锁等一系列措施来优化读写性能，但并未从根本上解决锁的影响，对于大规模集群难以满足生产场景。 HDFS重启速度主要受限于： NameNode串行加载fsimage；大规模集群下该文件可达几十G。
1.6K32编辑于 2024-06-03
来自专栏数据社
快手超大规模集群调度优化实践
导读：随着公司业务的快速发展，离线计算集群规模和提交的作业量持续增长，如何支撑超大规模集群，如何满足不同场景的调度需求成为必须要解决的问题。随着集群规模增长和队列数目的增加，调度耗时越来越长，调度吞吐成为制约集群规模的主要瓶颈。 Kwai scheduler调度线上效果 Kwai scheduler 上线后，支撑单集群数万台机器，1万+作业同时运行，每天调度吞吐量峰值5w/s+，资源分配率93%+，同时支持不同的调度场景。 04 其他工作&未来规划支持超大规模集群：主要目标支撑十万量级的集群规模，目前基于社区的federation方案进行改造。 Hadoop跨IDC集群建设：受限于公司物理集群规划，离线集群会分布在不同的IDC，如何基于有限的跨IDC带宽，对数据和计算进行合理排布，是一个非常有挑战的问题。
1.5K20发布于 2021-03-11
来自专栏技术杂记
RabbitMQ集群II5
内存节点集群内存node是将所有元数据保存在内存中的node，是以一定安全风险为代价交换性能的选择，由于不保存数据到硬盘，所以断电或重启后数据将会丢失，也正因为不必与硬盘打交道，所以速度会非常快一般使用它来动态地扩展集群性能 (只使用RAM node的集群是脆弱的) RAM nodes keep their metadata only in memory.
31020编辑于 2022-05-03
来自专栏大数据文摘
基于Hadoop集群的大规模分布式深度学习
目前，Hadoop集群已成为Yahoo大规模机器学习的首选平台。 ? 深度学习（Deep Learning, DL）是雅虎很多产品的核心技术需求。 Caffe-on-Spark让我们集Caffe与Spark二者之长处，将其应用于大规模深度学习，使深度学习任务如其它Spark应用一样易于操作。集群中的多个GPU被用于训练基于HDFS大规模数据集的模型。性能测试 Caffe-on-Spark支持（a）多个GPU，（b）多台机器进行深度学习。使用4台服务器（4x8个GPU）训练，能在10小时内使top-5准确率超过80%（20%的误差）。注意1个GPU训练40小时后也只能达到60%的top-5准确率（40%的误差）。 ? 对于60%的top-5准确率（40%的误差），8个GPU能比1个GPU提速680%。下表显示了达到70%和80% top-5准确率的速度提升幅度。
2K80发布于 2018-05-21

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大规模 IoT 边缘容器集群管理的几种架构-5-总结

腾讯大规模Hadoop集群实践

Firmament – 大规模集群任务调度

Kubernetes 大规模集群最佳实践

OVHcloud 启用大规模 Kubernetes 集群管理

大规模 codis 集群的治理与实践

Sun Grid Engine 大规模集群监控

Pinterest 大规模缓存集群的架构剖析

etcd 集群5

ZooKeeper 集群5

Consul 集群5

大规模场景下 kubernetes 集群的性能优化

治大国若烹小鲜，大规模Kubernetes集群的运营哲学

Google的大规模集群管理系统Borg（上篇）

关于较大规模hadoop集群的小文件问题

超大规模 Spark 集群灰度发布 CI CD

深入腾讯云TBDS：大规模HDFS集群优化实战

快手超大规模集群调度优化实践

RabbitMQ集群II5

基于Hadoop集群的大规模分布式深度学习

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐