新浪新闻客户端

从“13天”到“0天”延时,揭秘火山引擎DataLeap SLA保障最佳实践

从“13天”到“0天”延时,揭秘火山引擎DataLeap SLA保障最佳实践
2023年03月07日 16:06

  在数据治理中,如何实现SLA保障一直是“老大难”问题。

  随着某房产APP稳定发展,楼盘、房源、经纪人、营销等数据不断扩大,在数据任务开发场景中,业务多样化、数据量大、数据任务复杂等问题,导致数据任务链路依赖复杂、链路长、依赖多。其中,异常突出的是离线数仓SLA延迟大,竟然高达“13天”。

  在字节跳动内部,“0987”高质量服务评价体系被广泛应用于数据服务场景。“0987”即从多个维度综合论证数据中台的价值,位列第一的“0”,指的是数据中台必须保障数据稳定,实现SLA故障清零。在“0987”服务标准的指导下,这款房产APP通过火山引擎大数据研发治理套件DataLeap实现SLA延迟从“13天”缩短为“0天”。

  据房产APP数据研发人员介绍,“火山引擎DataLeap具备数据开发、数据治理、数据质量全链能力,可以串联成一套连贯、可复用的治理方案,最终形成SLA保障高效管理。”

  某房产APP团队任务签署SLA步骤  某房产APP团队任务签署SLA步骤

  具体来说,他们主要通过以下三个步骤快速实现SLA“零延时”。

  首先,数据研发团队根据业务需求,圈定出需要被SLA保障的核心任务,包括线上核心任务、管理驾驶舱数据以及周报、月报等重点业务核心看板。

  其次,制定全局保障方案。在SLA治理环节,存在核心任务SLA保障不足,有发生线上业务事故的隐患问题。除此之外,SLA任务运维报警能力不足或者SLA签署时间不合理等,有SLA延迟隐患,造成破线事故。基于火山引擎DataLeap数据治理功能,数据开发人员可以通过申报单签署的形式达成SLA协议,在申报签署环节中,各个环节的变化将通过通知模块传递信息给相应负责人,实时通知降低信息交流成本,加速了SLA的达成。

  数据质量整体策略  数据质量整体策略

  另外,火山引擎DataLeap支持对卡点任务的监控,保障 SLA 及时性及任务准确性。

  举个例子来说,APP平台有一个关系到经纪人核心利益分值指标。当经纪人完成相应任务时,分值增加。但当维表中数据缺失,在前台反映的结果则是分值不更新,对经纪人造成困扰。另外,之前还出现过这样的案例:小李在数据库中的核心维度是“经纪人”,但在维表中,可能测试数据误导入或重复数据导入,导致小李对应到多个门店或对应到错误房源。

  在这种情况下,基于火山引擎DataLeap,这个房产APP数据研发团队可以实现核心任务的数据波动监控、异常报警,避免因为数据质量导致的数据失信、决策失误等事故。

  最后,项目中的核心数据指标如SLA任务数量、报警数、起夜率等都能体现在火山引擎DataLeap的大盘展板中,量化项目推进效果,为风险判断、后续措施提供数据支持,成为数据治理指标重要参照来源。

  最终项目效果不仅仅体现在解决离线SLA保障的燃眉之急,更为该房产APP团队形成了一套标准流程和规范。在事前,使用申报流程,规范SLA签署;在事中,完善报警及时性和准确性,降低误报率;在事后,及时跟踪报警情况,完善问题复盘及监控机制,沉淀公共解决方案,推SLA治理健康、可持续发展。

  数据质量实施过程  数据质量实施过程

  随着数字化转型进一步深入,火山引擎DataLeap将进一步帮助企业提升数据研发效率、降低管理成本,为企业数字化实践提供有力支撑。

  (来源:新视线)

责任编辑:孙青扬

APP

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2023 SINA Corporation

All Rights Reserved 新浪公司 版权所有