// MongoDB运维与开发(9)---readConcern // readConcern产生背景: MongoDB的写请求写入Primary, secondary从Primary自动获取并且应用 但读数据可能存在以下问题: 1、如果用户从secondary读,但secondary还没有跟上Primary,就会导致读取了老数据 2、如果用户从primary读到数据,但在该数据复制到secondary
“诗和远方”:-) 总体来看,大多数人认为两者含义并不完全一样,很多人都认为IT运营比IT运维的层次更高,有些成熟度较高的大型IT组织已经提出并在执行“从IT运维到IT运营”的发展规划。 BSM、云计算、运维大数据等新的理念、技术和工具的出现、发展和变迁,都和IT正逐步开始从运维走向运营有密切关系,时至今日,从全局角度来看,可以说企业IT已经站在了从运维到运营的一个重要拐点上。 IT运维阶段,IT组织更多地还是在解决三类人的基本需求,让用户能用,让老板批钱,让员工干活,当然也希望大家更满意,但受限于阶段性能力和各方面因素,先能保证这些基本需求就已经很不容易了,而做到这些,在相当长时间内也已经足够 假如IT部门不能与时俱进,还是停留在满足基本需求的运维上,而不主动向追求卓越的运营迈进,提供更有竞争力的优质IT服务,那就很可能会在几年后会碰到更大的挑战。 以上是关于IT运维到IT运营的一些不成熟的思考,抛砖引玉,希望能得到大家的批评和指教。
配置化管理与动态优化:管理员可可视化配置匹配规则和权重,结合用户反馈动态优化解决方案,让知识库越用越精准,贴合实际运维需求。 核心重点:专属运维知识库详解(算法 + 目标 + 流程)咱们的专属运维知识库,是结合前八期运维需求定制的,核心优势是 “精准匹配、贴合需求、联动所有工具”。 (如方案评分、使用反馈)自动优化权重,适配运维需求变化。 关系图谱技术:匹配更智能、更全面解决 “关联问题遗漏” 的痛点,贴合运维场景需求:o 设备类型关系图谱:构建设备间关联(如 U 位传感器与监控工具联动),搜索某设备故障时,同步推荐关联设备的解决方案;o 从第一期的资产管理,到第九期的知识库支撑,我们一步步搭建起了 “基础监控→工具落地→精细化管理→智能支撑” 的完整运维体系。运维知识库让所有细节、工具、流程形成闭环,让运维工作更规范、更高效、更省心。
当前传统的 ITOM 工具往往缺乏分析能力,虽然也能采集到运维数据,但无法对这些数据所包含的信息进行洞察,更加无法将数据进行知识化的本质提升。 AIOps 为IT运维提供了全新的管理思路。AIOps 的定义涵盖的两个阶段,可概括为两个层次的提升:数据到信息分析层次的提升;信息到知识提取层次的提升。 ? 从数据到信息的分析,更多的是采用数据统计方法,帮助运维相关人员更好地从众多运维数据中了解系统的运行状态,分析并定位故障,实时获取统计数据。 到2022年,40% 的大型企业会通过大数据和机器学习的能力来帮助甚至逐渐取代传统运维中的监控、服务台及自动化流程。 在信息架构与应用系统日渐庞大的今天,如果再通过人工分析定位的运维方式,很难适应目前日益快速增长的业务需求。
183.131.200.61 1.81.5.178 1.81.5.179 183.131.200.68 183.131.200.69 183.131.200.72 183.131.200.74 学习部署bind9 k8s-dns.host.com 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux 安装bind9 使用centos6自带的yum源即可,同时确保机器可以解析外网域名,并能连接公网 yum install -y bind-utils bind bind-devel bind-chroot bind9主配置文件 加载自定义区域文件 include "/etc/named.root.key"; 检查配置文件 # named-checkconf -z /etc/named.conf 没有报错就属于正常 启动bind9服务
背景需求: 准备使用grpc作为服务组间的服务通信协议 问题发生: 本地开发采用mac开发,依赖如下: <dependency> <groupId>org.lognet</groupId blog.csdn.net/zxyuying/article/details/44085753 https://help.aliyun.com/knowledge_detail/41478.html#%E9% 80%9A%E8%BF%87%E5%9B%9E%E6%BB%9A%E7%A3%81%E7%9B%98%E6%81%A2%E5%A4%8D
日常运维工作中,运维及研发同事经常需要查询日志来排查系统异常问题,每次查询日志都需要登录监控系统、查找监控资源、编写日志查询语句,最后再逐行查看日志。这实在是太麻烦了,严重影响了工作效率。 无论是技术小白还是资深运维,都能轻松上手,大幅提升日志查询效率。 自然语言生成查询语句:只需用日常语言描述需求,MCP Server自动生成精准的日志查询语句典型使用场景 1. 运维排障:当系统出现异常时,大模型智能分析当前错误日志,快速定位问题 2. 上报日志到腾讯云日志服务:您可将日志上报至日志服务,使用真实的日志进行查询。也可使用日志服务免费的Demo日志,开启方式详见产品文档。本文以负载均衡CLB Demo日志为例进行演示。 2.
运维平台需要满足新增需求并服务于各种应用场景,一个无可回避的问题已经浮上水面: 如何有效运维这些基础设施? 当前市场上的应对方式,是加大在IT运维服务方面的投入。 根据前几年中国IT运维服务市场的发展形式和对未来发展趋势的分析,我国IT运维服务市场未来几年需求仍然会比较旺盛,前瞻产业研究院预测 2025 年我国IT运维服务市场规模将达到 3668 亿元左右。 除了产业升级、扩大产能等客观需求,一些外在因素使得国内的IT运维升级较之西方发达国家,面临更为猛烈、也更为无序的开局。 科技因素。 IT运维赛道在整个国内数字化市场中稳中向好,自 2014 年以来保持了9- 10 个百分点的年增长。 老旧的模式、运维系统早已完成IT运维从无到有的历史使命,成为鸡肋;新的模式缺少“吃螃蟹”验证。无数的行业需求举棋不定,以至于还在复刻“流程和标准规范化”的模式,争取让业务增量跑赢人力成本。
许多Ceph新手在测试环节以及预生产的时候会对Ceph集群的部署以及调优产生困扰,A公司运维小哥也遇到了部署和调优问题。下面来看看A公司运维小哥是如何解决这个问题的。 关卡二:部署调优关(部署) 难度:三颗星 上篇文章开头我也说到了,部署Ceph是新手的噩梦,对于传统运维来说部署一套Ceph是很难的事情,A公司运维小哥在官网以及Ceph中国社区的相关资料和帮助下才渐渐熟悉了什么是 图1:网络问题 第二回合:磁盘问题 解决了网络问题又迎来了磁盘分区的问题,运维小哥折腾了半天没弄好,后来在Ceph中国社区群友的帮助下解决了此事。 而此时就是考验一个运维人员的处理故障的基本素质,好在这个运维小哥有过一两年的经验,经过基本排查,最终确定了是时间问题。由于三个节点时间不一致而导致的这个问题,这里称之为“OSD打摆子”。 所以云平台也好存储也好,都会因为时间而产生不必要的故障问题,建议运维人员要注重时间问题。 ? 图8:Ceph集群 好了言归正传,上图是运维小哥新搭建好的集群。三节点、六个OSD的Ceph小集群。
运维从横向、纵向分可以分为多个维度和层次,本文试图抛开这纷繁复杂的概念,讲述一个传统的企业级运维人员转型到云运维人员,尤其是软件定义存储的运维之间经历的沟沟坎坎。 随着云计算、大数据以及新兴的区块链等技术体系的迅猛发展,数据中心的扩容建设进入高峰期,云数据中心运维需求应运而生。 你应该在选择存储介质之前了解到集群的工作负载和性能需求。Ceph使用存储介质有两种方法:OSD日志盘和OSD数据盘。Ceph的每一次写操作分两步处理。 下面贴出来A公司运维小哥根据自己场景需求选择的硬件配置。 欲知后事,且听下文《从传统运维到云运维演进历程之软件定义存储(二)》,主要讲述了A公司运维小哥在硬件选型完毕之后开始部署Ceph遇到的一些问题以及解决办法。
2、影响性能的因素 传统存储的封闭特性带来的优势是从存储操作系统软件到专用硬件的深度优化,而软件定义存储、Server SAN的目的是软件和硬件的解耦合,它们带来了灵活性,免除了硬件厂商锁定,但很多时候却不能充分发挥硬件的潜力 同时,由于网络交互在分布式存储中的引入,给存储的整体“时延(latency)”特性带来了挑战,很多分布式存储系统因没有恒定的低时延无法满足高实时性数据库等应用的需求。
在DevOps里面的运维和技术运营部分,也没有要求一定要实现到智能化程度。 对AIOps智能化运维的基础理解 ? 在这个阶段完成后我们进入到自动化运维阶段。 而实际对于自动化运维可以分为以下三个大部分的内容 运维流程的自动化:包括了巡检,事件问题管理,变更管理,版本发布等 运维配置库:最基本的运维配置管理库,从物理资源到逻辑资源到源代码库到服务库 运维监控的自动化 :自动化数据采集,监控预警,性能分析,后续触发的自动管控操作 对于运维流程最终往往都涉及到运维操作,运维操作最终结果涉及到配置库信息的变更,而对于运维监控本身有可能发现运维类问题并启动相应的运维流程进行处理 在自动化运维里面,我们会很强调工具链这个词,即要实现整个运维自动化涉及到诸多的流程协同,底层更是涉及到诸多的工具协同,而这些工具本身都是单一的完成一种类型的操作任务,如果这些工具间没有协同和集成起来,那么将直接导致我们整个运维过程是存在隔离和断点的
运维安全作为企业安全保障的基石,特别是互联网企业,它不同于Web安全、移动安全、或者业务安全,因为运维安全位于最底层,或涉及到服务器、网络设备。 而在企业日常运营中,运维安全事件的出现通常预示着这个企业的安全规范、流程有问题,这种情况下就会不止一台机器有同样的漏洞,会是一大片,甚至波及整个公司的核心业务。 分享6个经典的与运维安全相关的漏洞: 一次成功的漫游京东内部网络的过程(由一个开发人员失误导致) 首先研发人员将公司的代码发布到第三方代码托管平台,例如GitHub。 邮箱没有对通讯录遍历功能进行限制,导致遍历通讯录 对所有的用户进行一次弱口令的洗劫(参考图一的弱口令),是用Burpsuite破解(简称:BP) 得到一个运维或者运维组员工的邮箱,在邮件里面找到了明文密码 以上内容参考:运维安全管理必修课 安全牛课堂 来自:
Linux运维工程师面试题(9)祝各位小伙伴们早日找到自己心仪的工作。持续学习才不会被淘汰。地球不爆炸,我们不放假。机会总是留给有有准备的人的。加油,打工人! 外部负载均衡器可以将流量路由到自动创建的 NodePort 服务和 ClusterIP 服务上。 9 有状态和无状态服务的区别http请求无状态,多次请求之间没有依赖关系有状态就是多次访问之间有关联关系,需要记录多次之间的访问关系10 k8s 中 service 是做什么的? 阿里云、腾讯云、华为云、今日头条、百家号、GitHub、个人博客公众号:阿贤Linux个人博客:blog.waluna.tophttps://blog.waluna.top/---原文链接: Linux运维工程师面试题 (9).
自动化运维平台功能大纲 核心功能1-Dashboard及展示 核心功能2-资产管理及展示 核心功能3-SQL审核及展示 核心功能4-运维工具及展示 核心功能5-堡垒机及展示 ---- 自动化运维平台功能大纲  ---- 工作台  作用:这是我们运维人员平时写周报,日报,月总结,年总结,绩效考核的地方。 功能实现: 将TXT或者是EXECL集成到页面当中即可。 在管理的页面中,也分为三个标签页: ---- 用户 第一个标签页,就是用户,也就是针对用户及用户组的管理,这里涉及到用户的权限 员工权限: 1)运维权限 2)开发权限 3)测试权限 管理员权限: 所有服务器的权限,都控制在运维的手中,所以,所有服务器运维都看的到。 而开发,或许只能看到开发环境的机器,测试只能看到测试环境的机器。 ---- 提交sql 那么问题来了,我开发在生产中,是有需求执行某一条SQL语句,来修改数据,或者修改字段,增加数据的。如何是好?
回到最初的Ceph运维工程师的问题,本系列讲述的是传统运维向新一代云运维转型之软件定义存储部分的转型,运维是企业业务系统从规划、设计、实施、交付到运维的最后一个步骤,也是重要的步骤。 1.通过tell 命令在线修pool的副本数,并修改配置文件且同步到所有节点。 #保险起见,最好把MON和OSD关于副本数的选项都修改。 2. 好了,最后一篇文章到此结束,在本系列开头讲到随着云计算、大数据以及新兴的区块链等技术体系的迅猛发展,数据中心的扩容建设进入高峰期,云数据中心运维需求应运而生。 因此,云数据中心的运维对于传统的运维人员提出了新的能力要求——不仅要熟悉传统硬件设备,同时要掌握虚拟化、云系统的部署、监控和管理等运维能力。 通过九篇文章简单介绍了下传统运维向云运维或者说是传统运维向SDS运维的转型之路。
关卡五:Ceph灾备神兵利器-故障域 重要度:五颗星 转眼六篇文章过去了,还记得大明湖畔(本系列一)的运维小哥吗? 勿忘初心,咱们还是回到最初的运维小哥,运维小哥经历了硬件选型、部署、调优、测试的一系列转型的关卡,终于就要到最后的上线了。 运维小哥最初的梦想搭建一个Ceph存储集群,对接云服务,底层存储实现高可用的数据访问架构。 根据存储管理平台的需求和集群规模,需要实现: 将物理环境按高可用的拓扑架构规划好,并且完成存储集群部署。 将24台服务器分别规划在3个机架上,每个机架8台服务器,每个机架设置为一个故障域,创建一个3副本存储资源池,数据副本自动分布到不同故障域中,也是分布在不同机架上,保障数据安全。
上回书讲完了部署,部署完成之后,就开始了无休止的调优,对于Ceph运维人员来说最头痛的莫过于两件事:一、Ceph调优;二、Ceph运维。 调优是件非常头疼的事情,下面来看看运维小哥是如何调优的,运维小哥根据网上资料进行了一个调优方法论(调优总结)。 在Linux的各种发行版中,为了保证对硬件的兼容和可靠性,很多内核参数都采用了较为保守的设置,然而这无法满足我们对于高性能计算的需求,为了Ceph能更好地利用系统资源,我们需要对部分参数进行调整。 设定Linux操作系统参数:vm.swappiness=0,配置到/etc/sysctl.conf。 (256KB) + L1d L#9 (32KB) + L1i L#9 (32KB) + Core L#9 PU L#18 (P#9) PU L#19 (P#29)
可以在多地间依据企业需求做到数据的实时或者异步的保护。 但是缺点同样显而易见,及存储网关作为一个总的数据流量出入口本身就可能成为一个瓶颈! 部分备份软件利用自身私有协议,将在本地的备份数据远程同步到远端的备份节点上。 这种方式有效做到了带宽的有效利用和数据的高一至性。但是缺点也非常明显,既无法做到业务的实时可用。
上回书讲到了运维小哥的调优方法论(上),对于Ceph运维人员来说最头痛的莫过于两件事:一、Ceph调优;二、Ceph运维。调优是件非常头疼的事情,下面来看看运维小哥是如何调优的。 Linux 2.4内核之后引入了将特定中断绑定到指定的CPU的技术,称为中断亲和(SMP IRQ affinity)。 Linux中所有的中断情况在文件/proc/interrupt中记录: ? (3)减少内存拷贝 普通网卡先将接收到的数据在服务器的缓冲区中复制一份,经系统处理后分配给其中一个TCP连接,然后,系统再将这些数据与使用它的应用程序相关联,并将这些数据由系统缓冲区复制到应用程序的缓冲区 TOE网卡在接收数据时,在网卡内进行协议处理,因此,它不必将数据复制到服务器缓冲区,而是直接复制到应用程序的缓冲区,这种数据传输方式减少了部分内存拷贝的消耗。