当前位置:首页 > 问答 > 正文

讲讲VMware维护那点事儿,平时都得忙啥,偶尔还得做些例行检查和维护

讲讲VMware维护那点事儿,平时都得忙啥,偶尔还得做些例行检查和维护

(主要参考来源:多位企业IT运维工程师的日常经验分享与社区讨论,以及《虚拟化平台运维:从入门到实践》等实践指南中的非技术性描述)

干VMware维护这活儿,说白了就像是当一个大楼的管理员,只不过这个大楼是虚拟的,里面住的不是人,而是一台台叫做“虚拟机”的电脑,平时忙的事儿挺杂,但核心就一个:让这个虚拟大楼稳稳当当,里面的“住户”能正常干活儿。

讲讲VMware维护那点事儿,平时都得忙啥,偶尔还得做些例行检查和维护

平时都得忙啥?

大部分时间,我们就是个“救火队员”和“搬家工人”,开发部门、测试部门、业务部门,动不动就来找你:“哥们儿,帮我开台新机器呗,要多大内存、多少CPU的。” 这就是创建新虚拟机,得根据他们的要求,在资源池里划出地方,装好系统,配置好网络,然后把“钥匙”交给他们,这算是最常见的活儿。

“搬家”的活儿也不少,比如某台物理服务器老了要退休,或者负载太高,就得把上面跑的几十台虚拟机,一台台地“热迁移”到别的健康主机上去,业务还不能停,这就像给一架高速飞行的飞机换发动机,得小心翼翼,还有存储“搬家”,因为磁盘空间总是不够用,或者速度跟不上,就得把虚拟机的数据文件从一个存储柜挪到另一个更大的、更快的柜子里去。

讲讲VMware维护那点事儿,平时都得忙啥,偶尔还得做些例行检查和维护

“救火”是最紧张的,时不时就有电话打来:“某某系统卡死了,登不上了!” 你得赶紧去虚拟化平台的管理界面(就是那个叫vCenter的“总控台”)看,是宿主服务器(ESXi主机)掉线了?是存储连接断了?还是某台虚拟机自己“死机”了?判断问题出在哪一层,然后赶紧处理,可能是重启一下那台“死机”的虚拟机,可能是检查主机的网络线,也可能是存储那边出了状况需要协调,忙起来的时候,感觉就像在同时下好几盘棋。

偶尔的例行检查和维护

除了日常的“接单”和“救火”,定期的“体检”和“保养”绝对不能少,不然迟早出大事,这些活儿通常安排在晚上或者周末,因为会影响业务。

讲讲VMware维护那点事儿,平时都得忙啥,偶尔还得做些例行检查和维护

首先就是“打补丁”,VMware自己会定期发布一些修复漏洞、提升稳定性的补丁包,给vCenter和每台ESXi主机都得打上,这个过程得像做手术:先选一台主机,把上面的虚拟机全部“迁走”,让它进入维护模式,然后安装补丁,重启,测试没问题了,再把它加回集群,接着处理下一台,循环往复,直到所有主机都更新完,这活儿枯燥又耗时,但能堵上很多安全窟窿。

“大扫除”,虚拟化环境用久了,会产生很多“垃圾”:比如删除了虚拟机后留下的闲置磁盘文件、过时的快照(系统某个时间点的“照片”,用来回滚的,但有些快照拍了就忘了删,越积越大,严重拖慢性能)、没人用的老模板等等,得定期去清理,回收宝贵的存储空间,检查资源分配也是个重点,看看有没有虚拟机占着200G内存却只用20G,这种“占着茅坑不拉屎”的情况就得调整,把资源腾给更需要的系统。

再就是“看健康报告”,平台本身有很多监控图表,像CPU使用率、内存消耗、磁盘读写速度、网络流量这些,我们得定期翻看历史趋势,是不是有哪台主机负载长期偏高?存储的响应时间是不是越来越慢?网络有没有频繁的报错?这就像看汽车的仪表盘和定期保养记录,提前发现哪个轮胎胎压不足,哪个部件有磨损迹象,好提前准备更换,避免半路抛锚。

“演练”很重要,再好的备份,不恢复一次都不知道能不能用,所以得定期挑一些不重要的虚拟机,测试一下从备份里恢复的过程要花多久,恢复出来的系统是不是真的能启动,灾难恢复预案也不能只写在纸上,每年得真的模拟一次“整个机房挂了”的情况,看看能不能在备用站点把核心业务拉起来,真到出大事的时候,手才不会抖。

这活儿是个细心活儿,也是个体力活儿,既要处理各种突发的“小毛病”,满足业务部门的各种“小需求”,更要坚持做那些看起来不紧急、但能防止“大楼坍塌”的例行检查和维护,心里得时刻有张地图,清楚这个虚拟大楼里每一个角落的状况,才能让它24小时不停地转下去。