搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏云优惠券
Hadoop集群运维
3.2、datanode down后，hadoop集群的容错处理模拟datanode进程down故障，观察hadoop集群的容错处理：首先hadoop集群不会马上认定datanode已经dead，线上集群未配置采用默认值。场景4：nodemanager节点故障，对sparkstreaming影响。注：这部分请参考spark on yarn故障运维https://blog.csdn.net/qq_35488412/article/details/91041983 1.1 磁盘故障对yarn nodemanager 场景4部分：具体细节请参见：spark on yarn故障运维：https://blog.csdn.net/qq_35488412/article/details/91041983 相关资料参考: NameNode
2K10发布于 2019-06-20
来自专栏开源部署
Hadoop集群日常运维
（二）数据备份对于重要的数据，不能完全依赖HDFS，而是需要进行备份，注意以下几点（1）尽量异地备份（2）如果使用distcp备份至另一个hdfs集群，则不要使用同一版本的hadoop，避免hadoop /s/30bee5fb620b4cd184412c69f70d24a7 -files -blocks -racks FSCK started by jediael from /10.171.29.191 for path /hbase/Feb2621_webpage/c23aa183c7cb86af27f15d4c2aee2795/s/30bee5fb620b4cd184412c69f70d24a7 at Sun Mar 01 20:39:35 CST 2015 /hbase/Feb2621_webpage/c23aa183c7cb86af27f15d4c2aee2795/s/30bee5fb620b4cd184412c69f70d24a7 08,028 INFO org.apache.hadoop.hdfs.server.balancer.Balancer: 0 under utilized nodes: （2）均衡器将每个DN的使用率与整个集群的使用率接近
1.5K20编辑于 2022-07-04
来自专栏散尽浮华
MongoDB集群运维笔记
前面的文章介绍了MongoDB副本集和分片集群的做法，下面对MongoDB集群的日常维护操作进行小总结： MongDB副本集故障转移功能得益于它的选举机制。假设MongoDB集群有3个节点，那么只要有2个节点活着就可以选举；如果有5个，那么活3个节点就可以选举；如果有7个节点，那么活4个就可以选举..... MongoDB集群最多12个副本集节点，是因为没必要一份数据复制那么多份，备份太多反而增加了网络负载和拖慢了集群性能；而最多7个节点参与选举是因为内部选举机制节点数量太多就会导致1分钟内还选不出主节点 2）MongoDB心跳整个MongoDB集群需要保持一定的通信才能知道哪些节点活着哪些节点挂掉。 [4] 如果同步操作30秒都没有反应，则会重新选择一个节点进行同步。 4）Mongodb主节点的读写压力过大如何解决?
5K101发布于 2018-01-23
来自专栏kafka专栏
4.【kafka运维】Leader重新选举运维脚本(4)
文章目录 kafka-leader-election Leader重新选举 More 日常运维、问题排查怎么能够少了滴滴开源的滴滴开源LogiKM一站式Kafka监控与管控平台 kafka-leader-election 进行Leader重选举 > sh bin/kafka-leader-election.sh --bootstrap-server xxxx:9090 --topic test_create_topic4 和分区进行Leader重选举先配置leader-election.json文件 { "partitions": [ { "topic": "test_create_topic4" , "partition": 1 }, { "topic": "test_create_topic4", "partition": 2 } 三者互斥 --path-to-json-file 配置文件批量选举，此参数跟--topic和all-topic-partitions 三者互斥 More Kafka专栏持续更新中…(源码、原理、实战、运维
48820发布于 2021-08-05
来自专栏kafka专栏
Kafka的灵魂伴侣Logi-KafkaManger(4)之运维管控–集群运维(数据迁移和集群在线升级)
集群列表集群运维迁移任务手动迁移过程实现数据迁移的几个注意点 Logi-KafkaManager 实现数据迁移集群任务版本管理平台管理专栏文章列表项目地址: didi/Logi-KafkaManager : 一站式Apache Kafka集群指标监控与运维管控平台运维管控运维管控这个菜单栏目下面主要是供运维人员来管理所有集群的; 集群列表 Kafka的灵魂伴侣Logi-KafkaManger三之运维管控 –集群列表集群运维迁移任务 kafka的迁移场景, 一般有同集群数据迁移、跨集群数据迁移; 我们这里主要讲同集群数据迁移; 同集群之间数据迁移，比如在已有的集群中新增了一个Broker节点，此时需要将原来集群中已有的平台管理 Kafka的灵魂伴侣Logi-KafkaManger(5)之运维管控–平台管理(用户管理和平台配置) 专栏文章列表 Kafka的灵魂伴侣Logi-KafkaManger一之集群的接入及相关概念讲解 Kafka的灵魂伴侣Logi-KafkaManger二之kafka针对Topic粒度的配额管理(限流) Kafka的灵魂伴侣Logi-KafkaManger三之运维管控–集群列表 ---- 欢迎 Star
58630发布于 2021-07-14
来自专栏DataOps
MySQL PXC 集群运维指南
可以将现有的 MySQL Server 实例转换为节点，并使用该节点作为基础运行集群。还可以从集群中分离任何节点并将其用作常规 MySQL 服务器实例。当执行查询时，它会在节点上本地执行。】当前节点状态,值为4表示正常共有四个值:joining:节点正在加入集群doner: 节点处于为新加入节点提供全量数据时的状态joined: 当前节点已成功加入集群synced: 当前节点与集群中各节点是同步状态，且不是在同一时间退出的PXC集群中一半以上的节点因意外宕机而无法访问时，PXC集群就会停止运行但如果这些PXC节点是以安全下线的方式退出，则不会引发集群自动停止运行的问题，只会缩小集群的规模只有意外下线一半以上节点时集群才会自动停止文件中的 safe_to_bootstrap 值改为1，所以在重启集群时，也是先启动最后一个退出的节点■ 如PXC节点都是同时意外退出的，则需要修改grastate.dat文件当集群所有节点正常运行时， grastate.datsafe_to_bootstrap: 1systemctl start mysql@bootstrap接着再依次正常启动其他节点：systemctl start mysql五、其他关于ProxySQL与keepalive的配置与运维
2.7K30编辑于 2022-10-13
来自专栏全栈工程师修炼之路
4.Redis基础运维之哨兵和集群安装配置
> sentinel ckquorum mymaster # 9.将Sentinel节点的配置强制刷到磁盘上，这个命令Sentinel节点自身用得比较多，对于开发和运维人员只有当外部原因（例如磁盘损坏 cluster 特性(已测试): 1): 节点自动发现 2): slave->master 选举,集群容错 3): Hot resharding:在线分片 4): 集群管理:cluster xxx 5) 4.集群搭建描述: Redis集群中要求奇数节点,至少要有三个节点，并且每个节点至少有一备份节点，所以至少需要6个redis服务实例。 # (4) 集群节点删除实践，例如从redis集群中删除上面的 172.16.100.116:6379 从节点。 (4) 集群是否完整才能对外提供服务？
1.5K20编辑于 2022-09-28
来自专栏木二天空
046.集群管理-日常运维
一 Node管理 1.1 Node隔离——方式一在硬件升级、硬件维护等情况下，我们需要将某些Node隔离，使其脱离Kubernetes集群的调度范围。指定为当前Kubernetes集群Master的地址，最后启动这些服务。通过kubelet默认的自动注册机制，新的Node将会自动加入现有的Kubernetes集群中。通过这种机制，Kubernetes实现了集群中Node的扩容。示例1：基于kubeadm部署的Kubernetes扩容Node。 [root@k8smaster01 ~]# kubectl config use-context ctx-dev #将当前运行环境设置为ctx-dev 注意：运如上设置，当前的运行环境被设置为开发组所需的环境
2.5K10发布于 2020-04-08
来自专栏John Wong's Blog
Ceph集群的搭建与运维
Ceph的存储过程文件->obj->pool->pg->osd->disk 文件被分片成对象对象存放于特定的pool pool由多个pg组成 pg对应多个osd osd直接对应disk 机器环境 4台 centos7机器默认最小集群是一个mon节点，两个osd节点 admin 10.37.129.10 ceph-node1 10.37.129.11 ceph-node2 release.asc 在admin节点部署在admin节点安装部署工具 yum -y install ceph-deploy 创建部署文件目录 mkdir -p /etc/ceph cd /etc/ceph 创建一个集群 ceph-node2 ceph-node3 给每一个节点的keyring 增加 r 权限（各节点执行） chmod +r /ect/ceph/ceph.client.admin.keyring 检查集群状况 1 0.00490 osd.1 up 1.00000 1.00000 -4
98710编辑于 2021-12-23
来自专栏Spark学习技巧
HBase高可用集群运维实践
随着越来越多的业务选择HBase作为存储引擎，对HBase的可用性要求也越来越高，对于HBase的运维也提出了新的挑战。目前运维集群超过30+，而且接入的业务类型繁多，对于性能要求也不完全一样，这是今年面临的问题。从15年开始，结合京东的业务情况，基于大数据平台，实现用户接入使用全流程自动化。之前的运维经验，一般的做法就是stop balance，然后通过move region的方式把有影响的表移到某些机器上。由于存在这个原因和业务的压力，往往只能采用拆分集群的方式，在一个HDFS 上往往运行几个HBase集群，但是带来的是运维成本的增加。 ? 最后我们把分组功能接入了BDP运维平台。DBA在配置实例的时候，根据业务选择不同的分组。通过rsgroup 解决拆分集群问题，可运维性也得到了提升。
1.6K50发布于 2018-03-20
来自专栏vivo互联网技术
400+节点的Elasticsearch集群运维
该功能是从Lucene 5移植到Lucene 4的，对应移植到了ES 1.X版本。没关系，这个系列博文很好地介绍了JVM性能（http://suo.im/4AJgps）。记住，ES和G1垃圾回收器一起并非最佳（http://suo.im/4WBTA5）。可以尝试均衡负载，使用分片分配过滤策略shard allocation filtering （http://suo.im/4IfruL），或者尝试通过集群重新路由 cluster rerouting（http 我们同时通过Java Mission Control （http://suo.im/4zYEsP）和 VisualVM （http://suo.im/4AJeIM）使用飞行记录器。这看起来太夸张，却可以为我们降低3到4倍的CPU消耗和4到8倍的内存使用。
87321发布于 2019-04-19
来自专栏数据和云
400+节点的Elasticsearch集群运维
该功能是从Lucene 5移植到Lucene 4的，对应移植到了ES 1.X版本。没关系，这个系列博文很好地介绍了JVM性能（http://suo.im/4AJgps）。记住，ES和G1垃圾回收器一起并非最佳（http://suo.im/4WBTA5）。可以尝试均衡负载，使用分片分配过滤策略shard allocation filtering （http://suo.im/4IfruL），或者尝试通过集群重新路由 cluster rerouting（http 我们同时通过Java Mission Control （http://suo.im/4zYEsP）和 VisualVM （http://suo.im/4AJeIM）使用飞行记录器。这看起来太夸张，却可以为我们降低3到4倍的CPU消耗和4到8倍的内存使用。
82030发布于 2019-07-22
来自专栏Debian中国
Rancher 2.2.2 发布：优化 Kubernetes 集群运维
通过 UI 轮换集群证书在 Rancher 2.2.2 中，用户通过 UI 操作即可完成集群证书轮换了！在 Rancher 2.0 和 2.1 中，Rancher 配置集群的自动生成证书的有效期为 1 年。这意味着如果您在大约 1 年前创建了 Rancher 配置集群，那么 1 年后需要轮换证书，否则证书过期后集群将进入错误状态。出于稳定性考虑，暂时移除了项目级别的监控，将在下一个版本中重新添加；集群级别的监控不受此影响。修复了发布目录模板可能因证书错误而失败的问题。修复了 Rancher 配置集群状态在带有前缀补丁的集群中被错误提取的问题。
87920发布于 2020-01-21
来自专栏vivo互联网技术
400+节点的 Elasticsearch 集群运维
https://www.infoq.cn/article/1sm0Mq5LyY_021HGuXer 作者：Anton Hägerstrand 翻译：杨振涛目录 1.数据量 2.版本 3.节点配置 4. 该功能是从Lucene 5移植到Lucene 4的，对应移植到了ES 1.X版本。这些实例运行的是 Amazon Linux，临时挂载为ext4，有约64GB的内存。我们分配了26GB用于ES节点的堆内存，剩下的用于磁盘缓存。为何是26GB？ 4.索引结构 ---- 因为我们的数据和查询都是基于时间序列的，所以使用了 time-based indexing，类似于ELK (elasticsearch, logstash, kibana) stack 这看起来太夸张，却可以为我们降低3到4倍的CPU消耗和4到8倍的内存使用。某些修改很细微（比如 indices query ，但其他人可能要求我们完全重写查询执行。
74250发布于 2019-03-11
来自专栏IT综合技术分享
PostgreSQL集群篇——常用的运维SQL
PostgreSQL集群篇——常用的运维SQL 简述本文主要是我日常使用的一些运维SQL和整理于互联网上的SQL，为了方便日常的使用，特把其汇总起来，遇到常用的时将会进行补充该文，欢迎大家在评论区进行提出一些常用的 like 'pg_%' and relname not like 'sql_%' order by relname 3、查询所有库的连接情况 select * from pg_stat_activity; 4、
1.5K20发布于 2021-11-24
来自专栏散尽浮华
Zookeeper集群脑裂问题 - 运维总结
zookeeper集群有这样一个特性：集群中只要有过半的机器是正常工作的，那么整个集群对外就是可用的。所以2个zookeeper的死亡容忍度为0；同理，要是有3个zookeeper，一个死了，还剩下2个正常的，过半了，所以3个zookeeper的容忍度为1；同理也可以多列举几个：2->0; 3->1; 4- 这就是更脑裂问题有关系了，比如回到上文出现脑裂问题的场景 [如上图1]：当机房中间的网络断掉之后，机房1内的三台服务器会进行领导者选举，但是此时过半机制的条件是 "节点数 > 3"，也就是说至少要4台zkServer 比如4个节点的集群，它的Quorums = 3，Quorums要超过3，相当于集群的容忍度还是1，如果2个节点失效，那么整个集群还是无效的。这是zookeeper防止"脑裂"默认采用的方法。 4、设置仲裁机制。
2.2K41发布于 2020-03-19
来自专栏散尽浮华
运维利器-ClusterShell集群管理操作记录
在运维实战中，如果有若干台数据库服务器，想对这些服务器进行同等动作，比如查看它们当前的即时负载情况，查看它们的主机名，分发文件等等，这个时候该怎么办？一个个登陆服务器去操作，太傻帽了！写个shell去执行，浪费时间~~ 这种情况下，如果集群数量不多的话，选择一个轻量级的集群管理软件就显得非常有必要了。 ClusterShell就是这样一种小的集群管理工具，原理是利用ssh，可以说是Linux系统下非常好用的运维利器！需求：利用ops-server1服务器控制其他三台服务器进行集群操作. [2,3] all: ops-server[2,3,4] 解下来就可以利用clush管理命令进行远程机器集群管理了，常用的是下面几个参数： -g 后面指定设置的组 -a 表示所有的组 -w 后面跟主机节点
2.2K70发布于 2018-01-23
来自专栏NebulaGraph 技术文章
如何运维多集群数据库？58 同城 NebulaGraph Database 运维实践
资源申请和集群管理方式为了更好的管理和维护，图数据库在运维部门集中运维管理。用户按需在工单平台中提交申请即可，工单中填写详细的资源需求数据和性能需求指标，由运维同学统一审核交付集群资源。 NebulaGraph 规范和架构设计由于需要满足大量业务需求，未来会有大量的集群需要交付和维护。为了高效管理和运维规模化的集群，需要提前规划和制定规范。 61000 meta 端口；51000 ws_http_port；41000 ws_h2_port 62000 storage 端口；52000 ws_http_port；42000 ws_h2_port 运维规范端口路径打包生成 rpm，作为标准安装包图片服务请求直接通过 DNS 和网关服务到 Graph，方便计算和存储服务直接交互，由于是通过 DNS 访问，不对外暴露 Meta 节点信息，可以更灵活的运维，较少服务绑定 Meta 节点 ip 带来的运维代价。
4.9K20编辑于 2023-02-15
来自专栏Snova最佳实践系列
snova运维篇（四）:GP集群扩容
本节主要从集群扩容的角度，进一步了解gp集群的日常运维工作。目录：集群扩容的一般性原则扩容规划准备增加新节点初始化新的segment 重分布表 ---- 基本概念：图片.png ---- 1.集群扩容的一般性原则弹性伸缩容量和性能扩容期间服务不中断 : sum = 87.94 MB/sec min = 18.87 MB/sec max = 69.07 MB/sec avg = 43.97 MB/sec median = 69.07 MB/sec 4. segment 创建输入文件 #su - gpadmin //登录master 切换到gpadmin $ gpexpand -f /home/gpadmin/new_hosts_file > sdw4, Tables Left | 4 (6 rows) 查看扩展表状态： => SELECT status, expansion_started, source_bytes
1.9K30发布于 2019-12-26
来自专栏vivo互联网技术
400+节点的Elasticsearch集群运维
https://mp.weixin.qq.com/s/ekKn9YCJMvmID-3rpoJfDA 作者：Anton Hägerstrand 翻译：杨振涛目录： 1.数据量 2.版本 3.节点配置 4. 该功能是从 Lucene 5 移植到 Lucene 4 的，对应移植到了 ES 1.X 版本。这些实例运行的是 Amazon Linux，临时挂载为 ext4，有约64GB的内存。我们分配了26GB用于ES节点的堆内存，剩下的用于磁盘缓存。为何是26GB？有了这么多的分片和节点，集群操作有时变得更特殊。比如，删除索引似乎成为集群master的能力瓶颈，它需要把集群状态信息推送给所有节点。这看起来太夸张，却可以为我们降低3到4倍的CPU消耗和4到8倍的内存使用。某些修改很细微（比如 indices query ），但其他人可能要求我们完全重写查询执行。
87960发布于 2019-03-28

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Hadoop集群运维

Hadoop集群日常运维

MongoDB集群运维笔记

4.【kafka运维】Leader重新选举运维脚本(4)

Kafka的灵魂伴侣Logi-KafkaManger(4)之运维管控–集群运维(数据迁移和集群在线升级)

MySQL PXC 集群运维指南

4.Redis基础运维之哨兵和集群安装配置

046.集群管理-日常运维

Ceph集群的搭建与运维

HBase高可用集群运维实践

400+节点的Elasticsearch集群运维

400+节点的Elasticsearch集群运维

Rancher 2.2.2 发布：优化 Kubernetes 集群运维

400+节点的 Elasticsearch 集群运维

PostgreSQL集群篇——常用的运维SQL

Zookeeper集群脑裂问题 - 运维总结

运维利器-ClusterShell集群管理操作记录

如何运维多集群数据库？58 同城 NebulaGraph Database 运维实践

snova运维篇（四）:GP集群扩容

400+节点的Elasticsearch集群运维

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐