首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >系统管理员“消防演习”疑难解答清单

系统管理员“消防演习”疑难解答清单
EN

Server Fault用户
提问于 2010-07-26 02:46:13
回答 2查看 485关注 0票数 5

最难做的事情之一是训练系统管理员以一致的方式解决问题(思考),尤其是在压力下,紧急的钟声响起等等。

对于一些培训课程,我想提出一个集合的“消防演习”与一些简单但合理的步骤,可以缩小问题。例如:

网站下线

  1. 缩小内部网络,外部网络,还是两者兼而有之?从一个地方还是从全球?
  2. DNS -它解决了吗?
  3. 港口-是开放的吗?有反应吗?(使用Telnet)
  4. 主机标题-对吗?
  5. Web服务器-事件查看器中的错误?

如果你也能添加一个你的“演习”,那将是非常有帮助的。其他训练系统管理员思维的方法也受到欢迎。

EN

回答 2

Server Fault用户

发布于 2010-07-26 04:07:27

Sysadmin-ing (我编的这个词)是一种“普通医学”。您必须对操作系统、硬件、网络、安全以及有时对开发具有较强的处理能力(您至少需要理解您正在使用的语言)。

训练系统管理员的一个好方法是生成中断和修复会话。我有一次这样做是为了测试一份工作的新申请者:他们必须从头开始安装服务器(这样你就可以检查他们对安装/分区的掌握程度),配置服务器和服务,做一些基本的强化工作。之后我就去那里搞砸了。对hosts文件的小改动、损坏或不正确的passwdshadow,您可以命名它,并查看候选人是否能够及时以逻辑的方式解决问题。

我同意你的想法,但我认为他们也许应该再深入一点。比如,如果你到达了网站上的第5步--向下的场景,从那里到哪里。

我建议按你建议的方式钻一次:

代理/nat后面的

用户不能再浏览

  1. 检查是否只有一个或多个用户
  2. 检查与代理的连接(ping、打开端口等)
  3. 检查代理机器是否响应(负载问题等)
  4. 检查日志
  5. 检查代理机器上的进程/磁盘(进程太多,磁盘已满)
  6. 检查代理进程/筛选规则/nat规则

但是,正如我所说的,在第6步之后,您几乎是在处理一个非标准的问题,而系统管理员的技能也会在那里闪耀。

票数 2
EN

Server Fault用户

发布于 2010-07-26 04:14:40

我从来没有管理过系统管理员,但我是其中之一,我不得不处理这种影响数百台服务器的情况,每分钟损失数千美元。在我的经验中,没有什么能取代从浏览器到web服务器和返回的整个流程图的深入和直观(即来自于真正的理解和经验)的知识,特别是从请求传入到响应时在特定web应用程序中发生的情况。

如果您发现您的sysadmin无法给您提供整个流程,通常,从浏览器到服务器和返回,经过培训,我建议他或她是不值得保持一个系统管理员的能力。

如果我要做这个“消防演习”,我可能会让它自由存在,给出一个时间限制,让系统管理员写下他/她的思想过程,以及他/她将从上到下检查的内容。你不能期望在那里的完美,但这将是一个很好的开端,发现差距的直觉知识。

另外,不要让系统管理员把自己放在一个盒子里。例如,要说“这是数据库;DBA应该解决这个问题,而我要解决其他问题”,让sysadmin不直观地知道从一开始到结束的应用程序流程,从而不能完全理解它。至少,一个系统管理员应该能够消除所有/大多数其他可能性,并且当他/她的知识被使用时,应该确切地知道该向谁求助。(知道什么时候和谁来求助,这本身就是一项不可或缺的技能。)

票数 2
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/163983

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档