system磁盘占用率高_cpu占用率高_路由器内存占用率高

早期互联网快速发展时,相关领域的公司更加注重业务拓展。 为了快速占领市场,他们往往投入了较高的成本。 但近年来,随着互联网人口红利的逐渐消退以及疫情的影响,越来越多的企业开始重视成本管理,从“粗放经营”向“精细化经营”模式转变,成本优化已成为企业重点关注的问题。

本文将从一个中型企业运维总监的角度,呈现一个比较完整的成本优化实践案例,希望能为读者提供成本优化思路参考。

降低成本实战案例背景

本文的主人公小王(化名)是一家电商公司的运维总监。 他的公司自建了IDC机房,包括业务服务器(线上+线下)共1000台,由3名运维人员管理。 机器规格大多为8核32G,整体CPU利用率只有10%左右,每年成本在1000万以上。

CTO希望在现有业务市场状况不变的情况下,在业务稳定的基础上,降低至少30%的IT成本,并将其定为小王今年的KPI。

第一阶段云+公有云厂商/算力品牌对比评选

接到任务后,小王首先将IT成本拆解为算力成本和人工成本。

目前IT成本主要由自建IDC机房承担,存在以下问题:

基于以上分析,考虑到公有云模式易于更新、基本免维护、灵活的特点,小王计划先将业务迁移到云端。

目前云厂商主要提供预留实例(订阅)、按需实例(弹性)、竞价实例三种方式:

为了保证系统的稳定性,尽量减少研发的感知,小王采取了以下措施:

以包月的形式将大部分无状态在线服务和部分离线服务所在的约800台机器迁移到相同配置的公有云机器上; 腾出相应的私有机房机器,通过专线打通将公有云和私有机房连接起来。 这样既可以保证线上服务迁移到云端后快速扩缩容,又可以兼顾数据传输成本和安全考虑; 接入相应的公有云部署发布、监控报警、限流自愈等辅助功能,从而节省运维人力。

在迁移上云的过程中,一方面,小王根据公司需求对比了多家公有云厂商,选择了最匹配的云资源; 另一方面,他将CPU品牌从Intel改为AMD。 成本。

系统指标描述业务算力特征

完成混合云转型后,小王进一步将算力成本拆解为服务算力成本和基础设施资源成本:

结合公司目前的成本比例,服务算力成本占其中60%以上。

算力成本来源占比如下图所示:

路由器内存占用率高_system磁盘占用率高_cpu占用率高

图1 算力成本来源占比

基于第28条原则,小王决定从第三方运维的角度,在对业务影响较小的前提下,重点关注节省服务算力成本。

小王首先查看了公司已上云的典型业务的算力特征。 由于公司业务以计算为主,他选择通过常见的性能指标CPU利用率来观察算力消耗,发现公司业务经常在中午12:00和晚上8:00左右迎来算力消耗高峰

如下所示:

cpu占用率高_system磁盘占用率高_路由器内存占用率高

图2 CPU利用率指标算力图

优化低频冗余算力

根据上面的业务算力模型,小王发现即使业务完全处于巅峰,所需的机器数量也不到现有数量的80%。 在公有云的弹性保障下,小王分阶段释放了200余台未触及历史峰值的8核32G包年包月冗余机,节省了约20%的成本。

压测+公有云模型规格缩减

粗略剔除明显冗余算力后,小王观察到业务算力即使在繁忙时利用率也不高,尤其是在内存空闲时。

接下来,小王对业务进行了压力测试,最终得出的结论是,业务机的规格保持在8核3G的比例,利用率相对均衡。 公有云机器的CPU核心和内存的比例一般都是1:2或者1:4的固定比例,所以小王首先按照公有云机器的标准配置,将机器规格从8核32G降低到了8核16G。公有云厂商,节省20%成本。

概括

第一阶段的优化方法比较常规,取得了一些成果。 小王总共节省了40%左右的成本,并以相对较低的成本获得了第一波成本降低奖金。

根据第一阶段的优化经验,小王总结了以下几点需要改进的地方:

根据CPU消耗测算的算力消耗与业务的实际情况还有一定的差距。 例如,经常出现CPU消耗较高但实际业务仍稳定且无需扩容的情况,这说明需要更准确的算力指标。 业务算力模型明显有峰谷,但资源消耗模型匹配得不太好。 虽然没有触及的冗余算力已经被移除,但算力仍然时刻处于最高峰配置被占用,造成空闲时间的极大浪费。 。 在公有云机器的规格中,CPU与内存的比例明显受到限制,导致无法进一步平衡算力资源的使用,造成浪费。

基于以上分析,小王依次分析了需要解决的三个问题:

以更精准的业务指标取代以CPU消耗为核心的物理指标; 持续采集指标,精准匹配算力波动曲线,实时联动扩缩容; 获得更符合实际业务的机器算力规格,提高资源利用率。

针对上述问题,小王对行业内现有的解决方案进行了研究,发现没有通用的方法和经验可以直接借鉴。 大多数实现方法都与具体业务场景绑定,需要深度参与研发。

为了如期实现目标,小王尝试利用云原生基础治理平台开始第二阶段的深度优化。

第二阶段指标替代CPU指标,精准衡量算力

借助系统,小王在防止业务大规模转型的前提下引入了指标。 该指标考虑了QPS中不同请求占用机器资源的时长,通过时长对QPS进行分段并匹配相应的权重来最终进行拟合。 与普通QPS指标相比,能够更准确地反映业务的实际负载情况。 该指标的基本计算公式如下:

图3 公式

小王利用这个指标执行了第一阶段的“优化低频冗余算力”操作,60台机器再次下线,节省了10%左右的成本。

用弹性伸缩替代年度和月度短期峰值算力

接下来,小王对比了公有云8核16G的包年包月价格(约600元/月)和弹性机价格(约1.20元/小时),发现包月的1天费用订阅机是弹性机30天费用的70%。 % 关于。

可以推断,对于每日高峰小时数低于总小时数30%(约8小时)的机器,可以用弹性替代包年。

如下所示:

cpu占用率高_system磁盘占用率高_路由器内存占用率高

图4 短期峰值弹性取代包年和包月订阅

对于其他规格的服务器,小王将推导扩展如下:

假设同规格机器弹性扩容一小时成本为Y元,高峰时段机器总数为K1,高峰时段为H小时,包年包月合理机器数为K2。 从节约成本的角度来看,需要保证以下条件:

(K1-K2)*H*Y < (X/30)*(K1-K2) => H*Y < (X/30)

由于X和Y是相对固定的值,根据这个不等式,可以计算出适合弹性的业务峰值的理论持续时间。 因此,在留有一定安全余量的前提下,小王利用测量和柔性能力,推出了50多台机器,节省了10%左右的成本。

包年包月算力低峰共享

面对剩余的订阅机,小王发现还有优化的空间。 从波形覆盖面积来看,空心波形(蓝色阴影区域)的面积至少占红框内矩形面积的1/3,如图:

system磁盘占用率高_路由器内存占用率高_cpu占用率高

图5 包年包月算力低峰共享

小王计划将这部分机器作为整个公司的共享资源池,可以用于公司其他周期性和离线任务。 由于涉及面广,小王请CTO出面推动协调,最终利用系统拟合业务算力模型曲线实时扩缩容,总共节省了10%的成本。成本。

裸金属切割,精确适应规格

完成基于指标和横向时间序列的算力优化后,小王再次将注意力集中在机器规格与业务需求的精准匹配上。

小王在公有云上使用了高标准的裸机服务器,并利用公有云裸机原材料进行二次切割。 虽然公有云上的裸机也是按照固定配比的算力资源出售,但切割后的算力规格可以精准匹配8核3G业务的规格要求。 同样500台机器,相比原来的8核16G云主机,砍下来的8核3G机器可以节省15%以上的成本。

利用算力的区域价格差异来节省成本

完成机器规格的精准裁剪和匹配后,单一算力规格和定时算力数量和类型已基本优化。 小王接着重点关注了算力的地区差异。 他了解到,公有云上西部机房相同规格的算力比东部机房便宜。 通过将近百台离线服务器迁移到西部机房,利用快速、大规模数据迁移的能力,实现从东到西的计算,他节省了10%的成本。

总结

第二阶段基本解决了第一阶段遗留的三大问题:计算能力的精确测量、模型的精确匹配、切割规格的精确。 两阶段结束后,CPU利用率提升至60%,总成本节省近70%,达到并超出了CTO的预期。

结合这两个阶段,小王的整体优化流程如下图所示:

cpu占用率高_路由器内存占用率高_system磁盘占用率高

图6 降低成本流程图

降低成本配套设施

为了顺利推进成本优化,除了设计和运营各种算力增减之外,小王还采用了以下配套措施和制度:

有必要明确算力衡量指标体系。 前期可以粗略使用CPU利用率等系统指标,后期需要精准的业务指标,例如QPS、单请求耗时综合指标。 降低成本的过程需要有相对完善的监控报警系统和灾难恢复SOP,以防止优化过程中出现意外情况。 比如,在优化低频冗余算力时,小王在机器离线时根据CPU等指标提前设置了扩缩容策略,并在系统保持正常一周后清除掉线机器。 为了准确衡量业务算力,需要压力测量系统和解决方案。 前期为了最大程度降低业务投入成本,运营主要按照以下思路:测试环境->在线日志回放->模拟调用接口->收集算力测量指标->逐步增加调用压力->服务器响应超时达到一定比例,达到该比例时压力测试结束。 后期可以逐步迭代到全链路压测,从网关到调用链路再到存储全隔离的形式,测量效果会更加准确,当然还有相应的研发成本和投资会更重。 为了充分体现每一步的优化结果,需要有成本板,以链式或横式的比例展示各阶段优化前后的机器资源和成本消耗。 成本板主要针对中高层人员,因此信息要简洁,成本信息要突出。降低成本遇到的非技术问题

在推动降低成本的过程中,小王还总结了遇到的一些非技术问题以及主要解决方案:

结语

回顾整个降本之路,除了前面总结的实施中的技术/非技术问题外,还有以下几点值得一提:

在互联网下半场的今天,降本增效已成为企业的大势所趋,甚至上升到了企业核心竞争力的层面。 面对各种成本优化路径和手段,谁先在正确的方向上迈出了一步,谁就能领先于对手。 本文全面描述了典型腰部企业的成本降低之路,希望对读者有所启发。 如果读者有成本优化技术相关的需求,可以联系我们一起讨论。

本文大部分内容摘自《星瀚未来云原生IT成本优化白皮书》,指的是星瀚未来打造的一站式云原生基础治理平台。 社区版本已经上线。 您可以通过此链接获取白皮书,免费试用社区版。

关于作者

舒超,星瀚未来的CTO。 原美团基础研发负责人、存储中心首席架构师,负责美团企业级云原生服务治理体系的开发和演进; 曾任腾讯微博微群及新闻流广告负责人。

好了,今天的主题就讲到这里吧,不管如何,能帮到你我就很开心了,如果您觉得这篇文章写得不错,欢迎点赞和分享给身边的朋友。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注