佛山坚美铝业,是广东坚美铝型材厂(集团)旗下企业,是全国铝型材行业的引领者之一。坚美铝业集团年生产能力60万吨以上,铝材产品销售覆盖全国30+省市,远销全球70+国家和地区,品牌价值达112.17亿元。
近年来,面对全球新冠疫情危机以及严峻复杂的国内外环境,传统铝型材制造业遭遇到了严峻挑战,但是作为南海区制造业的引领者,坚美铝业积极响应《广东省佛山市落实推动制造业数字化智能化转型发展》的政策号召,攻坚克难,加大对升级建设自动化生产基地的投入,扩大产能,保持企业良好的增长势头。
伴随着业务的蓬勃发展,应用系统及后台服务器数量成倍增加,应用架构越来越复杂,新技术带来的运维门槛越来越高。坚美铝业前期已建设零星的运维工具,如zstack自带监控、H3C(网管系统)等,相对分散,能力不够全面,对运维带来帮助如杯水车薪,运维困境日益凸显:
监控告警工具会产生大量无效告警,缺少有效手段收敛告警风暴,而且未能实现运维的联动,缺少配置-监控告警-工单-自动处理-告警自动关闭的故障闭环管理能力;
已有的运维工具属于竖井式建设,数据打通及联动困难,无法借助工具进一步提升运维运营服务能力,难以满足不断增长的业务系统运维需求;
缺少自动化运维工具,在巡检、资源交付、补丁管理等重复性较多的工作上,仍需要消耗大量的时间;
运维数据分散在各个工具系统,无法统一进行可视化展示、统计和分析,运维服务无法持续度量和优化。
如何快速提升运维管理水平,以更好地保障业务系统稳定运行,是坚美铝业IT部门迫切需要解决的问题。IT部门负责人曹部长高瞻远瞩,希望通过引进先进的技术和理念,基于一体化运维平台数据打通、扩展性强等特性,将线下的运维工作不断移植固化到平台上来,实现对同行业IT管理的弯道超车。
佛山坚美铝业基于一体化运维平台,实现IT资源对象可视、可控、可管的建设目标:
建立故障全生命周期的管理体系:提供覆盖资源管理、监控告警、健康巡检、故障自愈等多项功能为一体的运维平台,以故障定位和全生命周期管理为核心,持续保障公司业务连续性。
构建统一的告警中心,避免告警潮汐:接入zstack和H3C(网管系统)的告警信息到WeOps平台,实现告警统一展现,支持对告警进行收敛,避免告警潮汐。
构建主动服务能力,降低故障发生,提高系统稳定性:利用平台的健康扫描能力,可以定时自动对公司业务应用及IT资源进行健康扫描,提前发现系统性能故障及安全隐患,避免故障发生,提升业务应用运行的稳定性。
构建自动化运维能力,提升IT部运维工作效率:平台自带数十个自动化运维脚本,可解决常规运维问题,提高运维效率;也支持用户通过作业平台+标准运维,实现自动化脚本工具的自主开发;同时具备自动补丁安装能力,可以实现服务器补丁的批量安装,缓解运维压力。
构建可视化运维管理体系,随时掌握核心业务及应用运行状态:通过平台可实现资源状态大屏、应用墙、核心应用大屏等可视化大屏,可以实现公司整体资源运行健康状态、应用运行健康状态,实现运维的可视化。
经过层层筛选,坚美铝业最终采用嘉为蓝鲸WeOps一体化运维平台,依托于“腾讯蓝鲸Paas平台先进技术支撑”和“嘉为20+年运维实践经验”得天独厚的优势,帮助企业加快实现IT系统转型升级。
![](http://n.sinaimg.cn/spider20221102/740/w600h140/20221102/ef8f-e8078f3f985ef87e18864d6d9e7d5f41.png)
从前期的项目需求调研,技术方案设计,到平台的部署配置,再到平台功能的上线试运行,整体实施过程控制在2个月内完成,这得益于WeOps产品的资源管理、健康扫描、监控告警、数字大屏、知识库及自动化运维工具等模块功能开箱即用程度高,内置丰富的运维场景,一键启用。
目前,WeOps纳管了数百台服务器,覆盖数十套业务系统,通过模块功能之间相互联动,围绕故障全生命周期形成运维闭环管理。
![](http://n.sinaimg.cn/spider20221102/107/w600h307/20221102/352f-39fd840f1348b4575f497d94096f1f2b.png)
高效管理IT资产:WeOps自动生成发现采集和架构拓扑,覆盖了坚美铝业主机、基础软件等各个运维层面数十种IT对象,数百个IT资源;同时具有良好的扩展性,支持了第三方数据源的集成对接。
![](http://n.sinaimg.cn/spider20221102/61/w600h261/20221102/f39b-63ef93cce6b1229a3963d735bdc1bee5.png)
![](http://n.sinaimg.cn/spider20221102/164/w600h364/20221102/c496-b0a289c004330941c75c0661a846d585.png)
以往坚美铝业信息部门的资产管理,是每位管理员依靠Excel表记录各自负责的IT资产配置信息,并无统一汇总资源管理,这导致IT数据分散,信息准确率低、数据维护工作量大。WeOps上线使用后,CMDB实现从无到有的突破,运维人员告别手动操作,资产更新实现80%自动化,资产数据准确性提升5倍;并且每月可节约超过1天的人工维护成本,运维人员轻松应对半年度的资产盘点,可以花更多的时间精力在业务系统优化和建设上。
![](http://n.sinaimg.cn/spider20221102/738/w600h138/20221102/525e-7b307216f33a56a2203e82e722b80d5a.png)
全方位监控告警:WeOps灵活自定义监控仪表盘,涵盖健康扫描,及时感知故障。
![](http://n.sinaimg.cn/spider20221102/186/w600h386/20221102/0285-ce80170837c5c3f2448867278d41cc5d.png)
![](http://n.sinaimg.cn/spider20221102/255/w600h455/20221102/60dc-808f0fe2a8e13dc2ae6b4efd0cf2c6f0.png)
依托事件中心的聚类、抑制、收敛及屏蔽等告警算法,精准告警,避免告警潮汐。
![](http://n.sinaimg.cn/spider20221102/127/w600h327/20221102/fbcb-fbb4c31cc52a7c6c24dc4c116bfca1a8.png)
![](http://n.sinaimg.cn/spider20221102/55/w600h255/20221102/d294-1610e4a714267c9329d73247bbf54596.png)
坚美铝业以往没有一套一体化运维平台来帮助监控告警,故障排查,因此运维人员只能通过人工巡检排查,难以快速定位故障原因,来不及修复bug,影响了业务的正常运行。8月下旬WeOps正式上线,经过一周的密切观察后,重新调整了告警策略,对生产存在的故障和隐患进行了集中处理,9月系统稳定运行。
![](http://n.sinaimg.cn/spider20221102/86/w600h286/20221102/7d6f-cc0111f677fd8fc4a810fe9e2f3fe478.png)
总结WeOps近2个月的投产情况:监控的覆盖率提升190%,故障及时发现率提升220%,平均故障处理时长缩短72%,预计每年因故障影响业务运行状态的时间可减少72小时。
![](http://n.sinaimg.cn/spider20221102/735/w600h135/20221102/9aa9-ca3ce8dee99874b9d147b5abc848b8ba.png)
运维数据可视化、数字化:数据大屏动态汇总全局状态,运维全局一目了然,管理人员能直观审视业务运营与IT运维中的有效信息,提升IT管理的效能。
![](http://n.sinaimg.cn/spider20221102/136/w600h336/20221102/275f-c082e1e1d4f3a926315b464227f9975e.png)
![](http://n.sinaimg.cn/spider20221102/172/w600h372/20221102/1f3b-8fdf4bf76133cf0d7a47410261eb7aea.png)
![](http://n.sinaimg.cn/spider20221102/172/w600h372/20221102/24db-d98d726316e714a4426a5370176bbfee.png)
通过WeOps建设,嘉为科技成功助力坚美铝业业务实现可视、可管、可控,未来也将和坚美铝业持续合作生长,共同为铝型材生产业务注入科技动力,绘制制造业数字化蓝图!
(来源:新视线)