首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏云优惠券

    Hadoop集群

    memory (kbytes, -v) unlimited file locks (-x) unlimited 1 2 3 4 5 6 7 8 9 3.2、datanode down后,hadoop集群的容错处理 模拟datanode进程down故障,观察hadoop集群的容错处理: 首先hadoop集群不会马上认定datanode已经dead, 线上集群未配置采用默认值。 注:这部分请参考spark on yarn故障https://blog.csdn.net/qq_35488412/article/details/91041983 1.1 磁盘故障对yarn nodemanager 场景4部分:具体细节请参见:spark on yarn故障:https://blog.csdn.net/qq_35488412/article/details/91041983 相关资料参考: NameNode

    2K10发布于 2019-06-20
  • 来自专栏开源部署

    Hadoop集群日常

    (二)数据备份 对于重要的数据,不能完全依赖HDFS,而是需要进行备份,注意以下几点 (1)尽量异地备份 (2)如果使用distcp备份至另一个hdfs集群,则不要使用同一版本的hadoop,避免hadoop dfs.replication设置为3,而实现上只有2个datanode,则在执行fsck时会出现以下错误; /hbase/Mar0109_webpage/59ad1be6884739c29d0624d1d31a56d9/ 08,028 INFO org.apache.hadoop.hdfs.server.balancer.Balancer: 0 under utilized nodes: (2)均衡器将每个DN的使用率与整个集群的使用率接近

    1.5K20编辑于 2022-07-04
  • 来自专栏散尽浮华

    MongoDB集群笔记

    前面的文章介绍了MongoDB副本集和分片集群的做法,下面对MongoDB集群的日常维护操作进行小总结:         MongDB副本集故障转移功能得益于它的选举机制。 MongoDB集群最多12个副本集节点,是因为没必要一份数据复制那么多份,备份太多反而增加了网络负载和拖慢了集群性能;而最多7个节点参与选举是因为内部选举机制 节点数量太多就会导致1分钟内还选不出主节点 假设,Primary的数据是10:00的最新数据,我们设置了一个3600秒的迟延参数,那么这个带有迟延的节点的数据或者说命令执行情况(在oplog中)应该只到9:00为止。与主节点有1小时的迟延。 优先级 > var config = rs.config() > config.members[2].priority=2 > rs.reconfig(config) //重新更新配置 9) () >conf.members[1].priority=[0-1000] >conf.members[1].hidden=true #priority必须为0 >conf.members[9]

    5K101发布于 2018-01-23
  • 来自专栏DataOps

    MySQL PXC 集群指南

    可以将现有的 MySQL Server 实例转换为节点,并使用该节点作为基础运行集群。还可以从集群中分离任何节点并将其用作常规 MySQL 服务器实例。当执行查询时,它会在节点上本地执行。 】当前节点状态,值为4表示正常共有四个值:joining:节点正在加入集群doner: 节点处于为新加入节点提供全量数据时的状态joined: 当前节点已成功加入集群synced: 当前节点与集群中各节点是同步状态 ,且不是在同一时间退出的PXC集群中一半以上的节点因意外宕机而无法访问时,PXC集群就会停止运行但如果这些PXC节点是以安全下线的方式退出,则不会引发集群自动停止运行的问题,只会缩小集群的规模只有意外下线一半以上节点时集群才会自动停止 文件中的 safe_to_bootstrap 值改为1,所以在重启集群时,也是先启动最后一个退出的节点■ 如PXC节点都是同时意外退出的,则需要修改grastate.dat文件当集群所有节点正常运行时, grastate.datsafe_to_bootstrap: 1systemctl start mysql@bootstrap接着再依次正常启动其他节点:systemctl start mysql五、其他关于ProxySQL与keepalive的配置与

    2.7K30编辑于 2022-10-13
  • 来自专栏DBA随笔

    MongoDB与开发(9)---readConcern

    // MongoDB与开发(9)---readConcern // readConcern产生背景: MongoDB的写请求写入Primary, secondary从Primary自动获取并且应用 如果集群中大多数副本集成员崩溃,并且在读取操作后重新启动,这个时候,读取的结果将取决于参数: writeConcernMajorityJournalDefault 如果writeConcernMajorityJournalDefault

    1.8K20发布于 2020-12-14
  • 来自专栏木二天空

    046.集群管理-日常

    指定为当前Kubernetes集群Master的地址,最后启动这些服务。 通过kubelet默认的自动注册机制,新的Node将会自动加入现有的Kubernetes集群中。 outform der 2>/dev/null | openssl dgst -sha256 -hex | sed 's/^.* //' d8cf7c0384fff8779227f1a913d981d02b9f8f79a70365ba76a909e7160899a9 sha256:d8cf7c0384fff8779227f1a913d981d02b9f8f79a70365ba76a909e7160899a9 ? [root@k8smaster01 ~]# kubectl config use-context ctx-dev #将当前运行环境设置为ctx-dev 注意:如上设置,当前的运行环境被设置为开发组所需的环境

    2.5K10发布于 2020-04-08
  • 来自专栏John Wong's Blog

    Ceph集群的搭建与

    >pool->pg->osd->disk 文件被分片成对象 对象存放于特定的pool pool由多个pg组成 pg对应多个osd osd直接对应disk 机器环境 4台centos7机器 默认最小集群是一个 release.asc 在admin节点部署 在admin节点安装部署工具 yum -y install ceph-deploy 创建部署文件目录 mkdir -p /etc/ceph cd /etc/ceph 创建一个集群 ceph-node2 ceph-node3 给每一个节点的keyring 增加 r 权限(各节点执行) chmod +r /ect/ceph/ceph.client.admin.keyring 检查集群状况

    98710编辑于 2021-12-23
  • 来自专栏Spark学习技巧

    HBase高可用集群实践

    随着越来越多的业务选择HBase作为存储引擎,对HBase的可用性要求也越来越高,对于HBase的也提出了新的挑战。 目前集群超过30+,而且接入的业务类型繁多,对于性能要求也不完全一样,这是今年面临的问题。从15年开始,结合京东的业务情况,基于大数据平台,实现用户接入使用全流程自动化。 之前的经验,一般的做法就是stop balance,然后通过move region的方式把有影响的表移到某些机器上。 由于存在这个原因和业务的压力,往往只能采用拆分集群的方式,在一个HDFS 上往往运行几个HBase集群,但是带来的是成本的增加。 ? 最后我们把分组功能接入了BDP平台。DBA在配置实例的时候,根据业务选择不同的分组。通过rsgroup 解决拆分集群问题,可运性也得到了提升。

    1.6K50发布于 2018-03-20
  • 维那些事儿(9):知识库,串联全流程的效率神器

    本期我们将详细拆解运知识库的功能、价值和实用场景,重点介绍专属知识库的核心算法、实现目标和使用流程,让它与现有体系无缝联动,实现 “一站式支持”。 先搞懂:知识库的核心功能、价值与实用场景很多人觉得知识库只是 “存资料”,实则不然。它能深度融入日常工作,用智能匹配替代手动检索,用规范流程降低操作风险,核心价值和场景一看就懂、一用就会。 ✅一、核心功能:不止存资料,更能主动解决问题真正实用的知识库,核心围绕 “解决问题” 设计,4 大功能精准戳中痛点:1. 核心重点:专属知识库详解(算法 + 目标 + 流程)咱们的专属知识库,是结合前八期需求定制的,核心优势是 “精准匹配、贴合需求、联动所有工具”。 从第一期的资产管理,到第九期的知识库支撑,我们一步步搭建起了 “基础监控→工具落地→精细化管理→智能支撑” 的完整体系。知识库让所有细节、工具、流程形成闭环,让工作更规范、更高效、更省心。

    17721编辑于 2026-03-18
  • 来自专栏vivo互联网技术

    400+节点的Elasticsearch集群

    Elasticsearch方面的点滴,可参考之前博文中的numad issues(http://suo.im/5bDszP)和 batch percolator(http://suo.im/5qFQb9) 截止目前我们选择了不升级集群。当然我们希望可以升级,但目前有更为紧迫的任务。实际上该如何实施升级尚未有定论,很可能选择创建另一个新的集群,而不是升级现有的。 每个月的硬件开销远大于运行在COLO中,但是云服务支持扩容集群到2倍,而几乎不用花费多少时间。 你可能会问,为何选择自己管理维护ES集群。 有了这么多的分片和节点,集群操作有时变得更特殊。比如,删除索引似乎成为集群master的能力瓶颈,它需要把集群状态信息推送给所有节点。 我们必须尝试公平分享ES集群的性能测试,从下列引文就可以看出。 不幸的是,当集群宕机的时候,不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。

    87321发布于 2019-04-19
  • 来自专栏数据和云

    400+节点的Elasticsearch集群

    截止目前我们选择了不升级集群。当然我们希望可以升级,但目前有更为紧迫的任务。实际上该如何实施升级尚未有定论,很可能选择创建另一个新的集群,而不是升级现有的。 每个月的硬件开销远大于运行在COLO中,但是云服务支持扩容集群到2倍,而几乎不用花费多少时间。 你可能会问,为何选择自己管理维护ES集群。 有了这么多的分片和节点,集群操作有时变得更特殊。比如,删除索引似乎成为集群master的能力瓶颈,它需要把集群状态信息推送给所有节点。 我们的集群状态数据约100 MB,但通过TCP压缩可减少到3 MB (可以通过curl localhost:9200/_cluster/state/_all 查看你自己集群的状态数据)。 我们必须尝试公平分享ES集群的性能测试,从下列引文就可以看出。 不幸的是,当集群宕机的时候,不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。

    82030发布于 2019-07-22
  • 来自专栏Debian中国

    Rancher 2.2.2 发布:优化 Kubernetes 集群

    通过 UI 轮换集群证书 在 Rancher 2.2.2 中,用户通过 UI 操作即可完成集群证书轮换了! 在 Rancher 2.0 和 2.1 中,Rancher 配置集群的自动生成证书的有效期为 1 年。 这意味着如果您在大约 1 年前创建了 Rancher 配置集群,那么 1 年后需要轮换证书,否则证书过期后集群将进入错误状态。 出于稳定性考虑,暂时移除了项目级别的监控,将在下一个版本中重新添加;集群级别的监控不受此影响。 修复了发布目录模板可能因证书错误而失败的问题。 修复了 Rancher 配置集群状态在带有前缀补丁的集群中被错误提取的问题。

    87920发布于 2020-01-21
  • 来自专栏vivo互联网技术

    400+节点的 Elasticsearch 集群

    截止目前我们选择了不升级集群。当然我们希望可以升级,但目前有更为紧迫的任务。实际上该如何实施升级尚未有定论,很可能选择创建另一个新的集群,而不是升级现有的。 每个月的硬件开销远大于运行在COLO中,但是云服务支持扩容集群到2倍,而几乎不用花费多少时间。 你可能会问,为何选择自己管理维护ES集群。 有了这么多的分片和节点,集群操作有时变得更特殊。比如,删除索引似乎成为集群master的能力瓶颈,它需要把集群状态信息推送给所有节点。 我们的集群状态数据约100 MB,但通过TCP压缩可减少到3 MB (可以通过 curl localhost:9200/_cluster/state/_all 查看你自己集群的状态数据)。 我们必须尝试公平分享ES集群的性能测试,从下列引文就可以看出。 不幸的是,当集群宕机的时候,不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。 

    74250发布于 2019-03-11
  • 来自专栏散尽浮华

    利器-ClusterShell集群管理操作记录

    在运实战中,如果有若干台数据库服务器,想对这些服务器进行同等动作,比如查看它们当前的即时负载情况,查看它们的主机名,分发文件等等,这个时候该怎么办?一个个登陆服务器去操作,太傻帽了! 写个shell去执行,浪费时间~~ 这种情况下,如果集群数量不多的话,选择一个轻量级的集群管理软件就显得非常有必要了。 ClusterShell就是这样一种小的集群管理工具,原理是利用ssh,可以说是Linux系统下非常好用的利器! ops-server3,ops-server4 --rcopy /root/test --dest=/tmp/ [root@ops-server1 tmp]# ll -rw-r--r--. 1 root root 9 passwd.ops-server3 -rw-r--r--. 1 root root 854 Nov 25 02:04 passwd.ops-server4 -rw-r--r--. 1 root root 9

    2.2K70发布于 2018-01-23
  • 来自专栏散尽浮华

    Zookeeper集群脑裂问题 - 总结

    脑裂通常会出现在集群环境中,比如ElasticSearch、Zookeeper集群,而这些集群环境有一个统一的特点,就是它们有一个大脑,比如ElasticSearch集群中有Master节点,Zookeeper 集群中有Leader节点。 zookeeper集群有这样一个特性:集群中只要有过半的机器是正常工作的,那么整个集群对外就是可用的。 二、 Zookeeper 集群中的"脑裂"场景说明 对于一个集群,想要提高这个集群的可用性,通常会采用多机房部署,比如现在有一个由6台zkServer所组成的一个集群,部署在了两个机房: ? 这就相当于原本一个集群,被分成了两个集群,出现了两个"大脑",这就是所谓的"脑裂"现象。

    2.2K41发布于 2020-03-19
  • 来自专栏IT综合技术分享

    PostgreSQL集群篇——常用的SQL

    PostgreSQL集群篇——常用的SQL 简述 本文主要是我日常使用的一些SQL和整理于互联网上的SQL,为了方便日常的使用,特把其汇总起来,遇到常用的时将会进行补充该文,欢迎大家在评论区进行提出一些常用的 pg_stat_user_tables where n_live_tup > 100000 and seq_scan > 0 order by seq_tup_read desc limit 10; 9

    1.5K20发布于 2021-11-24
  • 来自专栏NebulaGraph 技术文章

    如何集群数据库?58 同城 NebulaGraph Database 实践

    资源申请和集群管理方式 为了更好的管理和维护,图数据库在运部门集中管理。用户按需在工单平台中提交申请即可,工单中填写详细的资源需求数据和性能需求指标,由同学统一审核交付集群资源。 NebulaGraph 规范和架构设计 由于需要满足大量业务需求,未来会有大量的集群需要交付和维护。为了高效管理和规模化的集群,需要提前规划和制定规范。 61000 meta 端口;51000 ws_http_port;41000 ws_h2_port 62000 storage 端口;52000 ws_http_port;42000 ws_h2_port 规范 端口 路径打包生成 rpm,作为标准安装包 图片 服务请求直接通过 DNS 和网关服务到 Graph,方便计算和存储服务直接交互,由于是通过 DNS 访问,不对外暴露 Meta 节点信息,可以更灵活的 ,较少服务绑定 Meta 节点 ip 带来的代价。

    4.9K20编辑于 2023-02-15
  • 来自专栏Snova最佳实践系列

    snova篇(四):GP集群扩容

    本节主要从集群扩容的角度,进一步了解gp集群的日常工作。 目录: 集群扩容的一般性原则 扩容规划 准备增加新节点 初始化新的segment 重分布表 ---- 基本概念: 图片.png ---- 1.集群扩容的一般性原则 弹性伸缩容量和性能 扩容期间服务不中断 port:fselocation:dbid:content:preferred_role:replication_port 例如: sdw5:sdw5-1:50011:/gpdata/primary/gp9: 11:9:p:53011 sdw5:sdw5-2:50012:/gpdata/primary/gp10:12:10:p:53011 sdw5:sdw5-2:60011:/gpdata/mirror/gp9 :13:9:m:63011 sdw5:sdw5-1:60012:/gpdata/mirror/gp10:14:10:m:63011 运行gpexpand初始化新的segment $ gpexpand -

    1.9K30发布于 2019-12-26
  • 来自专栏vivo互联网技术

    400+节点的Elasticsearch集群

    本文首发于InfoQ ,https://www.infoq.cn/article/1sm0Mq5LyY_021HGuXer 官方发文链接:https://mp.weixin.qq.com/s/ekKn9YCJMvmID 截止目前我们选择了不升级集群。当然我们希望可以升级,但目前有更为紧迫的任务。实际上该如何实施升级尚未有定论,很可能选择创建另一个新的集群,而不是升级现有的。 每个月的硬件开销远大于运行在COLO中,但是云服务支持扩容集群到2倍,而几乎不用花费多少时间。 你可能会问,为何选择自己管理维护ES集群。 有了这么多的分片和节点,集群操作有时变得更特殊。比如,删除索引似乎成为集群master的能力瓶颈,它需要把集群状态信息推送给所有节点。 我们必须尝试公平分享ES集群的性能测试,从下列引文就可以看出。 不幸的是,当集群宕机的时候,不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。 

    87960发布于 2019-03-28
  • 来自专栏华章科技

    高级架构师分享Linux 集群和自动化心得

    下面,@抚琴煮酒(余洪春)将为大家解答关于Linux集群和自动化方面的问题。 内容多多,干活多多,分享给有需要的网友们交流、学习。 【嘉宾介绍】 余洪春(抚琴煮酒),高级架构师、资深系统管理员,在电子商务领域及云计算领域工作10多年,在Linux集群、自动化、DevOPS及高并发高流量网站架构设计等方面进行了深入的研究;在大量一线实践中积累了丰富的经验 Q:集群化的云计算相比传统,所需要掌握的新技术点在哪 A:关注点不一样,比如拿AWS云平台来说,像传统,面临着安装系统、系统上架,分配机房等问题,但这些基础的活云平台都自动做了;如果想往云计算方向发展 A:Jenkins是持续集成,跟自动化是属于两个不同的方向吧。 Q:1.分布式网站系统,如何 用集群自动更新代码和同步代码(实现那种秒更新的方案?) Q:你好,我发现这本书,名称是 Linux集群和自动化

    4.2K20发布于 2018-08-15
领券