当前位置:首页 > 问答 > 正文

云计算资源用得那么多却浪费严重,到底是哪里出了问题呢?

“云计算资源用得那么多却浪费严重,到底是哪里出了问题呢?”这个问题其实戳中了很多使用云服务的公司,尤其是大公司的痛点,明明是为了提高效率和节省成本才上的云,结果每个月收到的账单却高得惊人,仔细一查,发现很多钱都花在了根本没在用的资源上,这背后的原因,并不单一,而是像一团乱麻,牵扯到技术、管理和人性等多个方面。

一个最普遍也最简单的原因是“开了机却忘了关”,这听起来有点滑稽,但每天都在发生,一个软件开发团队为了测试一个新功能,临时申请了十几台云上的虚拟服务器,测试可能一两天就做完了,但团队忙起来就忘了这茬事,或者觉得关机和开机太麻烦,这些服务器就这么一直开着,一天24小时,一月30天地持续产生费用,这些服务器就像家里没人却一直亮着的灯,白白浪费电费,根据知名咨询公司高德纳的一份报告,企业云支出中高达30%可能都被这种浪费所消耗(来源:高德纳分析师曾多次在公开报告中提及此估算范围),这种浪费在开发测试环境中尤其常见。

云计算资源用得那么多却浪费严重,到底是哪里出了问题呢?

“买大了”的问题,云服务商提供了各种各样规格的虚拟机,就像买衣服有S、M、L、XL号一样,但很多公司在申请资源时,心里没底,害怕资源不够会影响程序运行速度或稳定性,为了保险起见,他们往往倾向于选择那个最大的“XL”号,一个简单的公司官网,可能根本用不着32核CPU和128G内存的豪华配置,一个中等配置就绰绰有余了,但这种“宁大勿小”的心态,导致了大量的资源闲置,CPU使用率可能长期只有5%到10%,其余90%的算力就这么白白空转,但公司却要为这整个“XL”号的虚拟机支付全额费用,Flexera发布的《2023年云现状报告》就明确指出,“优化云支出以节省成本”已经连续多年成为企业最优先的云议题之一,而资源规格选择不当是优化的重点(来源:Flexera年度《云现状报告》)。

第三个问题出在管理混乱,没人负责,在很多公司里,云资源的申请太容易了,开发人员、项目组可能只需要在内部系统点几个按钮,甚至用公司统一的账户信用卡就能开通服务,这就导致了“云蔓延”——云上的资源数量疯狂增长,却没有人清楚地知道到底有多少台虚拟机在运行、哪些是必要的、哪些已经没用了,财务部门只管付钱,但他们看不懂技术账单;技术团队只管用资源完成任务,但对成本不敏感,缺乏一个中心化的管控平台和明确的成本责任制,使得浪费现象成了“房间里的大象”,人人可见,却无人清理,这种所有权不清晰的情况,是造成浪费的一个重要管理漏洞。

云计算资源用得那么多却浪费严重,到底是哪里出了问题呢?

第四,是架构设计“偷懒”,很多应用在从传统的自己机房迁移到云上时,采取了最简单的“直接搬家”模式,也就是所谓的“直接迁移”,它们没有根据云的特性(比如弹性伸缩)进行重新设计和优化,在云上,一个很大的优势是可以根据用户访问量的高低,自动增加或减少资源,电商网站在白天流量大时自动扩容,到了半夜流量低谷时自动缩容,这样就能省下很多钱,但很多应用还是按照传统模式,部署在固定大小的服务器上,无论有没有流量,都持续运行,无法享受到云计算的弹性红利,这就好比开着一辆油老虎卡车每天上下班通勤,虽然也能到达目的地,但成本效率极低。

还有一个容易被忽视的因素是复杂的计费模型,云服务商的定价策略非常复杂,有按需付费、预留实例、竞价实例等多种模式,选择合适的计费方式能省下大量资金,比如对于需要长期运行的服务,提前购买一年的“预留实例”通常比随用随付要便宜很多,但研究和选择这些最优方案需要专门的知识和持续的关注,对于很多技术团队来说,这超出了他们的核心工作范围,或者没有专门的财务运营岗位来负责,从而导致企业错过了本可以轻松实现的节省。

云资源的严重浪费不是一个技术故障,而是一个系统性的管理问题,它源于“开了不关”的坏习惯、“宁大勿小”的保守心态、企业内部管理的缺失和混乱、应用架构与云特性不匹配,以及对复杂成本优化的忽视,解决这个问题,需要技术团队提高成本意识,更需要企业建立清晰的云治理策略和问责机制,让节省成本像追求性能和安全一样,成为云上运营的核心文化。