在数据治理中,如何实现SLA保障一直是“老大难”问题。
随着某房产APP稳定发展,楼盘、房源、经纪人、营销等数据不断扩大,在数据任务开发场景中,业务多样化、数据量大、数据任务复杂等问题,导致数据任务链路依赖复杂、链路长、依赖多。其中,异常突出的是离线数仓SLA延迟大,竟然高达“13天”。
在字节跳动内部,“0987”高质量服务评价体系被广泛应用于数据服务场景。“0987”即从多个维度综合论证数据中台的价值,位列第一的“0”,指的是数据中台必须保障数据稳定,实现SLA故障清零。在“0987”服务标准的指导下,这款房产APP通过火山引擎大数据研发治理套件DataLeap实现SLA延迟从“13天”缩短为“0天”。
据房产APP数据研发人员介绍,“火山引擎DataLeap具备数据开发、数据治理、数据质量全链能力,可以串联成一套连贯、可复用的治理方案,最终形成SLA保障高效管理。”
具体来说,他们主要通过以下三个步骤快速实现SLA“零延时”。
首先,数据研发团队根据业务需求,圈定出需要被SLA保障的核心任务,包括线上核心任务、管理驾驶舱数据以及周报、月报等重点业务核心看板。
其次,制定全局保障方案。在SLA治理环节,存在核心任务SLA保障不足,有发生线上业务事故的隐患问题。除此之外,SLA任务运维报警能力不足或者SLA签署时间不合理等,有SLA延迟隐患,造成破线事故。基于火山引擎DataLeap数据治理功能,数据开发人员可以通过申报单签署的形式达成SLA协议,在申报签署环节中,各个环节的变化将通过通知模块传递信息给相应负责人,实时通知降低信息交流成本,加速了SLA的达成。
另外,火山引擎DataLeap支持对卡点任务的监控,保障 SLA 及时性及任务准确性。
举个例子来说,APP平台有一个关系到经纪人核心利益分值指标。当经纪人完成相应任务时,分值增加。但当维表中数据缺失,在前台反映的结果则是分值不更新,对经纪人造成困扰。另外,之前还出现过这样的案例:小李在数据库中的核心维度是“经纪人”,但在维表中,可能测试数据误导入或重复数据导入,导致小李对应到多个门店或对应到错误房源。
在这种情况下,基于火山引擎DataLeap,这个房产APP数据研发团队可以实现核心任务的数据波动监控、异常报警,避免因为数据质量导致的数据失信、决策失误等事故。
最后,项目中的核心数据指标如SLA任务数量、报警数、起夜率等都能体现在火山引擎DataLeap的大盘展板中,量化项目推进效果,为风险判断、后续措施提供数据支持,成为数据治理指标重要参照来源。
最终项目效果不仅仅体现在解决离线SLA保障的燃眉之急,更为该房产APP团队形成了一套标准流程和规范。在事前,使用申报流程,规范SLA签署;在事中,完善报警及时性和准确性,降低误报率;在事后,及时跟踪报警情况,完善问题复盘及监控机制,沉淀公共解决方案,推SLA治理健康、可持续发展。
随着数字化转型进一步深入,火山引擎DataLeap将进一步帮助企业提升数据研发效率、降低管理成本,为企业数字化实践提供有力支撑。
(来源:新视线)