2022年9月16日-17日,QECon全球软件质量&效能大会上海站在上海龙之梦大酒店隆重举办。本次大会,聚焦人工智能、云原生、移动互联网、大数据、业务价值、协同提效等主题,邀请众多行业技术大咖展开专场分享。掌动智能作为战略合作伙伴受邀参会,首次提出“三位一体”IT反脆弱性工程解决方案,为大型数字化系统的稳定可靠运行保驾护航!
大会现场
何为“三位一体”IT反脆弱性工程?下面为您一一揭秘!
反脆弱性与混沌工程
“反脆弱(Antifragile)”是趋势作家塔勒布在其同名著作中提出的观点。他认为,风险事件无法预估,但脆弱却可以被提前发现。反脆弱性方案针对脆性提前发现并从不确定性中收益。
在IT领域,混沌工程就是反脆弱性方案的典型代表。它是一套通过在(准)生产环境,对IT架构和业务系统进行压力与故障模拟实验,主动暴露实验对象脆弱性的方法论,能有效地帮助探索和避免潜在的稳定性缺陷,检验和提升系统高可用性和容错性,提升故障响应修复效率,减小事故影响,从而打造更具弹性、更抗风险的系统,掌握系统运行时各种行为规律,持续提高技术团队的应急能力和抗压素养。
但是传统的混沌工程也有自身的缺陷。根据反脆弱性理论,IT组织的脆弱性来自于内部随机事件和外部压力事件,但现阶段混沌方案,只侧重于来自内部,面向架构的故障注入;而欠缺来自外部,面向业务的故障注入。同时由于历史原因,大部分混沌工程方案,并未形成跨架构的能力,在“软件定义一切”的大背景下,绝大多数的故障注入,又都会对IaaS,PaaS和SaaS产生影响。因此,跨架构的可观测性成为必然。
“三位一体”反脆弱性工程
针对混沌工程的短板,掌动智能提出“三位一体”反脆弱性工程解决方案。它是基于反脆弱性理论,以业务压测作为外部压力,混沌工程作为随机事件,性能监控作为统一的测量方法,将三个方案有机融合在一起。
三位一体的反脆弱性工程解决方案主要包括:
1、混沌业务级故障注入
通过配置不同参数,组合不同业务报文,播放不同类型的业务交易,实现对被测对象的容量爆破,容错爆破,风险爆破。
2、混沌架构级故障注入
通过执行不同策略的故障脚本,实现对架构级、应用级的混沌爆破,主要以资源耗尽,错误配置,人工切换等方法,实现故障注入。
3、跨架构全栈可观测性
通过资产、指标(KPI/KQI)和业特征务(API/SQL/报文),实现基于性能异常方法的故障注入监控告警以及基于故障定位方法的故障爆炸半径测量。
从落地角度,掌动智能针对“三位一体”的实现,推出了三套业界领先的工具集。
1、X-Runner业务测试工具
具有国际先进水平的新一代国产化性能安全保障软件套件产品。X-Runner使用百万级别的并发虚拟用户模拟真实用户访问,从集中控制点管理分布式压测端对系统生成准确、可衡量和可重复的负载,并在服务器、虚拟化、容器等多种不同环境采集云网性能指标和业务运行指标。
XRunner实现了大规模用户瞬时并发访问场景注入,无规律,瞬时随机的大规模业务并发,通过响应时间、办理成功率等数据,检测系统对尖峰流量的抗冲击能力,伸缩性以及自恢复能力;错误业务数据场景注入,构建错误数据、错误流程、重复数据、攻击性数据等场景,通过返回报文的正确性校验,检测系统对非正常数据的容错能力
2、X-Chaos-混沌工程工具
Chaos混沌工程,是一类基于方法论和实践相结合的工程化项目。X-Chaos以ChaosBlade为基础,结合某超大型央企的全国云环境的混沌需求打造,也是国内现阶段,单一项目规模最大,内容最复杂,故障注入用例最多,实施频次最高的混沌工程。X-Chaos的混沌能力借助故障注入对基础层、平台层和应用层进行混沌演练,依托PaaS平台的安全能力和自身的权限控制做到在进行混沌实验的同时保障集群的安全可靠。
3、X-UniEye-跨架构全栈性能监控
X-Unieye以超轻量的单体探针,实现丰富的资产、业务、指标的数据采集、解析和治理;凭借“显微镜”一样的可观测性能力,快速实现丰富的运维与安全多场景方案。
X-Unieye的观测维度包括:
① 资产类:从IP、Port、MAC到Host-Name、System、Process和Pod,再到Domain、URL和API业务特征
② 指标类:从主机资源使用率;到每一次通信连接的流量,数据包,会话,各种标志位,各类时延;再到每一次应用会话,业务报文的通信指标、各类时延,返回码;实现最完整的基于流量的Metrix能力。
③ 交易链路类:从每一次TCP/UDP通信四元组,到每一次HTTP/URL/API,DNS,SQL…各类应用层会话,再到每一次负载段的业务报文。
收益与价值
通过三位一体的反脆弱性工程的实施,能带给企业如下价值体现:
1、提高事故预测和预警能力,有效降低事故率
通过对不同业务量下,各个应用组件,架构组件,网络组件的性能指标分析,实现定位故障隐患,减少事故风险,为每个单元建立基于业务量的性能基线,提高异常发现能力。
2、验证自愈和应急能力,减小事故影响和损失
精确衡量业务影响度和故障恢复时间,有效判断系统自愈能力、高可用能力、资源配置合理性以及监控告警的有效性,降低事故影响和业务损失。
(来源:新视线)