搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏云优惠券
Hadoop集群运维
virtual memory (kbytes, -v) unlimited file locks (-x) unlimited 1 2 3 4 5 6 7 3.2、datanode down后，hadoop集群的容错处理模拟datanode进程down故障，观察hadoop集群的容错处理：首先hadoop集群不会马上认定datanode已经dead，注：这部分请参考spark on yarn故障运维https://blog.csdn.net/qq_35488412/article/details/91041983 1.1 磁盘故障对yarn nodemanager 场景4部分：具体细节请参见：spark on yarn故障运维：https://blog.csdn.net/qq_35488412/article/details/91041983 相关资料参考: NameNode blog.csdn.net/baiye_xing/article/details/76273495 源码之HDFS之DataNode：启动过程：https://www.jianshu.com/p/1b7fea129368
2K10发布于 2019-06-20
来自专栏开源部署
Hadoop集群日常运维
（二）数据备份对于重要的数据，不能完全依赖HDFS，而是需要进行备份，注意以下几点（1）尽量异地备份（2）如果使用distcp备份至另一个hdfs集群，则不要使用同一版本的hadoop，避免hadoop /s/30bee5fb620b4cd184412c69f70d24a7 -files -blocks -racks FSCK started by jediael from /10.171.29.191 for path /hbase/Feb2621_webpage/c23aa183c7cb86af27f15d4c2aee2795/s/30bee5fb620b4cd184412c69f70d24a7 at Sun Mar 01 20:39:35 CST 2015 /hbase/Feb2621_webpage/c23aa183c7cb86af27f15d4c2aee2795/s/30bee5fb620b4cd184412c69f70d24a7 08,028 INFO org.apache.hadoop.hdfs.server.balancer.Balancer: 0 under utilized nodes: （2）均衡器将每个DN的使用率与整个集群的使用率接近
1.5K20编辑于 2022-07-04
来自专栏散尽浮华
MongoDB集群运维笔记
假设MongoDB集群有3个节点，那么只要有2个节点活着就可以选举；如果有5个，那么活3个节点就可以选举；如果有7个节点，那么活4个就可以选举..... MongoDB集群最多允许12个副本集节点，其中最多7个节点参与选举。这是为了减少心跳请求的网络流量和选举话费的时间，心跳每2秒发送一次。 MongoDB集群最多12个副本集节点，是因为没必要一份数据复制那么多份，备份太多反而增加了网络负载和拖慢了集群性能；而最多7个节点参与选举是因为内部选举机制节点数量太多就会导致1分钟内还选不出主节点 2）Mongodb 3.0里，复制集成员最多50个，参与Primary选举投票的成员最多7个。 3）对于超出7个的其他成员（Vote0）的vote属性必须设置为0，即不参与投票。 7）最后将该节点以副本集成员的身份重新启动即可。
5K101发布于 2018-01-23
来自专栏DataOps
MySQL PXC 集群运维指南
可以将现有的 MySQL Server 实例转换为节点，并使用该节点作为基础运行集群。还可以从集群中分离任何节点并将其用作常规 MySQL 服务器实例。当执行查询时，它会在节点上本地执行。】当前节点状态,值为4表示正常共有四个值:joining:节点正在加入集群doner: 节点处于为新加入节点提供全量数据时的状态joined: 当前节点已成功加入集群synced: 当前节点与集群中各节点是同步状态，且不是在同一时间退出的PXC集群中一半以上的节点因意外宕机而无法访问时，PXC集群就会停止运行但如果这些PXC节点是以安全下线的方式退出，则不会引发集群自动停止运行的问题，只会缩小集群的规模只有意外下线一半以上节点时集群才会自动停止文件中的 safe_to_bootstrap 值改为1，所以在重启集群时，也是先启动最后一个退出的节点■ 如PXC节点都是同时意外退出的，则需要修改grastate.dat文件当集群所有节点正常运行时， grastate.datsafe_to_bootstrap: 1systemctl start mysql@bootstrap接着再依次正常启动其他节点：systemctl start mysql五、其他关于ProxySQL与keepalive的配置与运维
2.7K30编辑于 2022-10-13
来自专栏运维经验分享
CentOS 7 运维优化原
CentOS 7 运维优化一般的，我们安装CentOS mini和其他相应服务后，就能正常工作了。但工作一段时间后，服务器会出现不稳定、被入侵、甚至在突然的高并发时直接瘫痪状况。所以，在这里提供一些运维优化的建议。 1.关闭不需要的服务众所周知，服务越少，系统占用的资源就会越少，所以应当关闭不需要的服务。 "$tty" = "$X_TTY" ] && continue initctl start tty TTY=$tty done end script 1 2 3 4 5 6 7 install -y ntp crontab -e // 加入一行 */5 * * * * /usr/sbin/ntpdate ntp.api.bz 1 2 3 4 ntp.api.bz是一组NTP服务器集群 8 7.调整 Linux 的最大文件打开数要调整一下 Linux 的最大文件打开数，否则运行 Squid 诅服务的机器在高负载时执行性能将会很差；另外，在 Linux 下部署应用时，有时候会遇上 “
2.8K20发布于 2019-03-11
来自专栏木二天空
046.集群管理-日常运维
一 Node管理 1.1 Node隔离——方式一在硬件升级、硬件维护等情况下，我们需要将某些Node隔离，使其脱离Kubernetes集群的调度范围。指定为当前Kubernetes集群Master的地址，最后启动这些服务。通过kubelet默认的自动注册机制，新的Node将会自动加入现有的Kubernetes集群中。 kubernetes systemctl enable kubelet [root@k8smaster01 study]# kubeadm token create #创建token dzqqnn.ar4w7xcz9byenf7i [root@k8smaster01 ~]# kubectl config use-context ctx-dev #将当前运行环境设置为ctx-dev 注意：运如上设置，当前的运行环境被设置为开发组所需的环境
2.5K10发布于 2020-04-08
来自专栏John Wong's Blog
Ceph集群的搭建与运维
文件->obj->pool->pg->osd->disk 文件被分片成对象对象存放于特定的pool pool由多个pg组成 pg对应多个osd osd直接对应disk 机器环境 4台centos7机器默认最小集群是一个mon节点，两个osd节点 admin 10.37.129.10 ceph-node1 10.37.129.11 ceph-node2 ceph.repo [Ceph] name=Ceph packages for $basearch baseurl=http://mirrors.163.com/ceph/rpm-kraken/el7/ release.asc 在admin节点部署在admin节点安装部署工具 yum -y install ceph-deploy 创建部署文件目录 mkdir -p /etc/ceph cd /etc/ceph 创建一个集群 ceph-node2 ceph-node3 给每一个节点的keyring 增加 r 权限（各节点执行） chmod +r /ect/ceph/ceph.client.admin.keyring 检查集群状况
98710编辑于 2021-12-23
来自专栏Spark学习技巧
HBase高可用集群运维实践
随着越来越多的业务选择HBase作为存储引擎，对HBase的可用性要求也越来越高，对于HBase的运维也提出了新的挑战。目前运维集群超过30+，而且接入的业务类型繁多，对于性能要求也不完全一样，这是今年面临的问题。从15年开始，结合京东的业务情况，基于大数据平台，实现用户接入使用全流程自动化。之前的运维经验，一般的做法就是stop balance，然后通过move region的方式把有影响的表移到某些机器上。由于存在这个原因和业务的压力，往往只能采用拆分集群的方式，在一个HDFS 上往往运行几个HBase集群，但是带来的是运维成本的增加。 ? 最后我们把分组功能接入了BDP运维平台。DBA在配置实例的时候，根据业务选择不同的分组。通过rsgroup 解决拆分集群问题，可运维性也得到了提升。
1.6K50发布于 2018-03-20
来自专栏vivo互联网技术
400+节点的Elasticsearch集群运维
每个月的硬件开销远大于运行在COLO中，但是云服务支持扩容集群到2倍，而几乎不用花费多少时间。你可能会问，为何选择自己管理维护ES集群。有了这么多的分片和节点，集群操作有时变得更特殊。比如，删除索引似乎成为集群master的能力瓶颈，它需要把集群状态信息推送给所有节点。我们必须尝试公平分享ES集群的性能测试，从下列引文就可以看出。不幸的是，当集群宕机的时候，不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。 ://suo.im/5ja7cU）来自行迁移分片。某些修改很细微（比如 indices query （http://suo.im/4WBUR7）），但其他人可能要求我们完全重写查询执行。
87321发布于 2019-04-19
来自专栏数据和云
400+节点的Elasticsearch集群运维
每个月的硬件开销远大于运行在COLO中，但是云服务支持扩容集群到2倍，而几乎不用花费多少时间。你可能会问，为何选择自己管理维护ES集群。有了这么多的分片和节点，集群操作有时变得更特殊。比如，删除索引似乎成为集群master的能力瓶颈，它需要把集群状态信息推送给所有节点。我们必须尝试公平分享ES集群的性能测试，从下列引文就可以看出。不幸的是，当集群宕机的时候，不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。 ://suo.im/5ja7cU）来自行迁移分片。某些修改很细微（比如 indices query （http://suo.im/4WBUR7）），但其他人可能要求我们完全重写查询执行。
82030发布于 2019-07-22
来自专栏Debian中国
Rancher 2.2.2 发布：优化 Kubernetes 集群运维
通过 UI 轮换集群证书在 Rancher 2.2.2 中，用户通过 UI 操作即可完成集群证书轮换了！在 Rancher 2.0 和 2.1 中，Rancher 配置集群的自动生成证书的有效期为 1 年。这意味着如果您在大约 1 年前创建了 Rancher 配置集群，那么 1 年后需要轮换证书，否则证书过期后集群将进入错误状态。出于稳定性考虑，暂时移除了项目级别的监控，将在下一个版本中重新添加；集群级别的监控不受此影响。修复了发布目录模板可能因证书错误而失败的问题。修复了 Rancher 配置集群状态在带有前缀补丁的集群中被错误提取的问题。
87920发布于 2020-01-21
来自专栏vivo互联网技术
400+节点的 Elasticsearch 集群运维
截止目前我们选择了不升级集群。当然我们希望可以升级，但目前有更为紧迫的任务。实际上该如何实施升级尚未有定论，很可能选择创建另一个新的集群，而不是升级现有的。每个月的硬件开销远大于运行在COLO中，但是云服务支持扩容集群到2倍，而几乎不用花费多少时间。你可能会问，为何选择自己管理维护ES集群。有了这么多的分片和节点，集群操作有时变得更特殊。比如，删除索引似乎成为集群master的能力瓶颈，它需要把集群状态信息推送给所有节点。我们的集群状态数据约100 MB，但通过TCP压缩可减少到3 MB （可以通过 curl localhost:9200/_cluster/state/_all 查看你自己集群的状态数据）。我们必须尝试公平分享ES集群的性能测试，从下列引文就可以看出。不幸的是，当集群宕机的时候，不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。
74250发布于 2019-03-11
来自专栏散尽浮华
运维利器-ClusterShell集群管理操作记录
在运维实战中，如果有若干台数据库服务器，想对这些服务器进行同等动作，比如查看它们当前的即时负载情况，查看它们的主机名，分发文件等等，这个时候该怎么办？一个个登陆服务器去操作，太傻帽了！写个shell去执行，浪费时间~~ 这种情况下，如果集群数量不多的话，选择一个轻量级的集群管理软件就显得非常有必要了。 ClusterShell就是这样一种小的集群管理工具，原理是利用ssh，可以说是Linux系统下非常好用的运维利器！ RSA key fingerprint is 89:29:5b:26:c1:3a:94:10:10:bd:7c:aa:6b:e5:0c:1c. RSA key fingerprint is 89:29:5b:26:c1:3a:94:10:10:bd:7c:aa:6b:e5:0c:1c.
2.2K70发布于 2018-01-23
来自专栏散尽浮华
Zookeeper集群脑裂问题 - 运维总结
脑裂通常会出现在集群环境中，比如ElasticSearch、Zookeeper集群，而这些集群环境有一个统一的特点，就是它们有一个大脑，比如ElasticSearch集群中有Master节点，Zookeeper 集群中有Leader节点。 zookeeper集群有这样一个特性：集群中只要有过半的机器是正常工作的，那么整个集群对外就是可用的。二、 Zookeeper 集群中的"脑裂"场景说明对于一个集群，想要提高这个集群的可用性，通常会采用多机房部署，比如现在有一个由6台zkServer所组成的一个集群，部署在了两个机房： ? 这就相当于原本一个集群，被分成了两个集群，出现了两个"大脑"，这就是所谓的"脑裂"现象。
2.2K41发布于 2020-03-19
来自专栏IT综合技术分享
PostgreSQL集群篇——常用的运维SQL
PostgreSQL集群篇——常用的运维SQL 简述本文主要是我日常使用的一些运维SQL和整理于互联网上的SQL，为了方便日常的使用，特把其汇总起来，遇到常用的时将会进行补充该文，欢迎大家在评论区进行提出一些常用的 relid) desc; 6、杀死指定用户的所有进程 select pg_terminate_backend(pid) from pg_stat_activity where usename='用户名'; 7、
1.5K20发布于 2021-11-24
来自专栏NebulaGraph 技术文章
如何运维多集群数据库？58 同城 NebulaGraph Database 运维实践
资源申请和集群管理方式为了更好的管理和维护，图数据库在运维部门集中运维管理。用户按需在工单平台中提交申请即可，工单中填写详细的资源需求数据和性能需求指标，由运维同学统一审核交付集群资源。 NebulaGraph 规范和架构设计由于需要满足大量业务需求，未来会有大量的集群需要交付和维护。为了高效管理和运维规模化的集群，需要提前规划和制定规范。 61000 meta 端口；51000 ws_http_port；41000 ws_h2_port 62000 storage 端口；52000 ws_http_port；42000 ws_h2_port 运维规范端口路径打包生成 rpm，作为标准安装包图片服务请求直接通过 DNS 和网关服务到 Graph，方便计算和存储服务直接交互，由于是通过 DNS 访问，不对外暴露 Meta 节点信息，可以更灵活的运维，较少服务绑定 Meta 节点 ip 带来的运维代价。
4.9K20编辑于 2023-02-15
来自专栏Snova最佳实践系列
snova运维篇（四）:GP集群扩容
本节主要从集群扩容的角度，进一步了解gp集群的日常运维工作。目录：集群扩容的一般性原则扩容规划准备增加新节点初始化新的segment 重分布表 ---- 基本概念：图片.png ---- 1.集群扩容的一般性原则弹性伸缩容量和性能扩容期间服务不中断 - gpadmin //登录master 切换到gpadmin $ gpexpand -f /home/gpadmin/new_hosts_file > sdw4, sdw5, sdw6, sdw7 回滚一个失败的扩展 gpstart -m //进入master-only模式重启数据库 gpexpand --rollback -D database_name //执行回滚操作 5.重分布表重分布时集群必须处于生产模式中
1.9K30发布于 2019-12-26
来自专栏vivo互联网技术
400+节点的Elasticsearch集群运维
截止目前我们选择了不升级集群。当然我们希望可以升级，但目前有更为紧迫的任务。实际上该如何实施升级尚未有定论，很可能选择创建另一个新的集群，而不是升级现有的。每个月的硬件开销远大于运行在COLO中，但是云服务支持扩容集群到2倍，而几乎不用花费多少时间。你可能会问，为何选择自己管理维护ES集群。有了这么多的分片和节点，集群操作有时变得更特殊。比如，删除索引似乎成为集群master的能力瓶颈，它需要把集群状态信息推送给所有节点。我们的集群状态数据约100 MB，但通过TCP压缩可减少到3 MB（可以通过 curl localhost:9200/_cluster/state/_all 查看你自己集群的状态数据）。我们必须尝试公平分享ES集群的性能测试，从下列引文就可以看出。不幸的是，当集群宕机的时候，不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。
87960发布于 2019-03-28
来自专栏华章科技
高级运维架构师分享Linux 集群和自动化运维心得
下面，@抚琴煮酒（余洪春）将为大家解答关于Linux集群和自动化运维方面的问题。内容多多，干活多多，分享给有需要的网友们交流、学习。【嘉宾介绍】余洪春（抚琴煮酒），高级运维架构师、资深系统管理员，在电子商务领域及云计算领域工作10多年，在Linux集群、自动化运维、DevOPS及高并发高流量网站架构设计等方面进行了深入的研究；在大量一线实践中积累了丰富的经验 Q：集群化的云计算运维相比传统运维，所需要掌握的新技术点在哪 A：关注点不一样，比如拿AWS云平台来说，像传统运维，面临着安装系统、系统上架，分配机房等问题，但这些基础运维的活云平台都自动做了；如果想往云计算运维方向发展 A：Jenkins是持续集成，跟自动化运维是属于两个不同的方向吧。 Q：1.分布式网站系统，如何用集群自动更新代码和同步代码（实现那种秒更新的方案？） Q：你好，我发现这本书，名称是 Linux集群和自动化运维。
4.2K20发布于 2018-08-15
来自专栏民工哥技术之路
玩转企业集群运维管理系列（十六）：DRBD 配置文件与运维管理
实际上，在drbd的整个集群中，每一个节点上面的drbd.conf文件需要是完全一致的。
1.9K10编辑于 2023-12-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Hadoop集群运维

Hadoop集群日常运维

MongoDB集群运维笔记

MySQL PXC 集群运维指南

CentOS 7 运维优化原

046.集群管理-日常运维

Ceph集群的搭建与运维

HBase高可用集群运维实践

400+节点的Elasticsearch集群运维

400+节点的Elasticsearch集群运维

Rancher 2.2.2 发布：优化 Kubernetes 集群运维

400+节点的 Elasticsearch 集群运维

运维利器-ClusterShell集群管理操作记录

Zookeeper集群脑裂问题 - 运维总结

PostgreSQL集群篇——常用的运维SQL

如何运维多集群数据库？58 同城 NebulaGraph Database 运维实践

snova运维篇（四）:GP集群扩容

400+节点的Elasticsearch集群运维

高级运维架构师分享Linux 集群和自动化运维心得

玩转企业集群运维管理系列（十六）：DRBD 配置文件与运维管理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Hadoop集群运维

Hadoop集群日常运维

MongoDB集群运维笔记

MySQL PXC 集群运维指南

CentOS 7 运维优化 原

046.集群管理-日常运维

Ceph集群的搭建与运维

HBase高可用集群运维实践

400+节点的Elasticsearch集群运维

400+节点的Elasticsearch集群运维

Rancher 2.2.2 发布：优化 Kubernetes 集群运维

400+节点的 Elasticsearch 集群运维

运维利器-ClusterShell集群管理操作记录

Zookeeper集群脑裂问题 - 运维总结

PostgreSQL集群篇——常用的运维SQL

如何运维多集群数据库？58 同城 NebulaGraph Database 运维实践

snova运维篇（四）:GP集群扩容

400+节点的Elasticsearch集群运维

高级运维架构师分享Linux 集群和自动化运维心得

玩转企业集群运维管理系列（十六）：DRBD 配置文件与运维管理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

CentOS 7 运维优化原