假期刚过,易鑫集团产品部经理王杨一大早就坐在电脑前,开始整理十一期间的运营数据。各条事业线、上百个产品、不同渠道,还有一些重要的测试期产品需要呈现更多细节。这个工作量,以往需要一个数据分析团队花费一整天的时间才能完成,而在易鑫智能数据仓库(以下简称“智能数仓”)的支持下,只要短短30分钟。
“智能数仓”的作用不仅在提升数据分析的效率。作为一家专业的汽车金融交易平台,易鑫集团累计实现的汽车金融交易量已超过200万台,是数十家银行等金融机构的合作伙伴。在平台纷繁忙碌的日常运营中,“智能数仓”的存在犹如“核心大脑”,为多业务体系稳定高效的运行提供了最强有力的科技保障。
从“散装”数据,到自建“智能数仓”
徐飞是易鑫“智能数仓”项目的第一位员工。彼时的易鑫,还没有一个真正意义上的“数据仓库”,众多业务数据被“散装”在几十个互不相通的业务操作系统中,只能通过手工报表导入信息。数据标准不统一,靠“手工”管理的表格极易出现错漏,严重制约了业务的进一步发展。
作为国内首批从事大数据平台建设、应用研发的专业人员,徐飞不仅参与过多家大型互联网企业的数据中心构建,还有一段不短的创业经历,帮助过众多中小型互联网公司构建独立中心数据仓库,这使得他在自建易鑫“智能数仓”的工作中,能给出更精准的设计和前瞻性的战略布局。
“和互联网公司汇集海量用户的行为数据不同,易鑫是以业务数据为主,对数据平台的安全性、稳定性和数据精准度、可用易用性要求更高;同时,公司多业务并行,数据横跨多个系统、链条拉得很长,口径不统一、标准不兼容,第三方商业数据库没法完全满足需求;作为一家平台化发展的企业,系统必须具备支持多项目运行的复杂运算和无限扩容的能力,以满足随着业务增长、未来数据处理量几倍、甚至上百倍增长的要求。”
徐飞说:“综合考察各种商业数据库的方案,也参考了互联网企业经验,我们发现自建数仓是最‘慢’、最‘费力’,但也最‘扎实’的解决方案。”
构建深入业务的“核心大脑”
同一团队的老秦曾参与过新浪等互联网公司的数据仓库建设。在他眼中,易鑫自建“智能数仓”,至少要具备三方面能力:首先,有统一的输入输出标准,能够支持海量多源异构数据的灵活存储和高效计算;其次,能够构建横跨多个业务系统的通用数据标准,实现对跨平台数据的有效组织和贯通;第三,具备加工数据产品和提供数据服务的能力,有支持统计、分析、挖掘等的中台操作模块,可以基于SLA标准对外稳定输出。
为了解决存储和扩容问题,团队用互联网公司标准,搭建了基于Hadoop框架的分布式计算存储平台,辅以领域内先进的Flink/Spark实时计算引擎,建立起包含100多个节点的服务器布局,让系统可以无限扩容的同时,还具有了大批量的离线数据处理及“秒级”计算能力。然后,系统抓取易鑫近百个系统中的源数据,并进行全面“清洗”,再根据业务逻辑将数据按照“业务对象”、“业务周期”、“用户”等不同主题模型化,进行分门别类的存储。“就像把不同工厂生产的衣物鞋帽,按照上衣、下装、鞋袜、配件等打上分类标签,或者按照男人、女人、小孩等适用场景分到不同仓库中,让数据井然有序。”老秦解释说。
“当中最难的,是如何将分属不同系统中的数据,划归到统一的标准口径下。”作为“智能数仓”核心数据工程师的马维直言,来易鑫之前,自己从未如此贴近过业务:“互联网公司的数据,都是IP、浏览等定义清晰的字段。但在易鑫,各个汽车金融业务之间并没有百分百的对应关系,每当业务系统出现一个新字段,都需要重新定义。”
她举例说,比如客户流失率,易鑫风控审核的多级漏斗是一个自行设计的业务流程,很难从历史数据库中找到准确匹配的字段。系统按照自定义的内容提供了客户流失数据,很快被业务部门发现不符合常理。经过“智能数仓”技术团队和业务端反复比对数据源后,最终找到了原因,随后又从源头重新定义数据指标,这才得出了合理结果。“因为没有历史参照,数据指标很难一次性定义得非常准确,我们需要大量的数据做验证。这在小型汽车金融企业是无法办到的。”马维说。
目前,易鑫“智能数仓”每天接收并处理来自近百个业务系统的大约1.5TB数据,并行处理超过1万个计算任务;多种维度的数据,可以通过手机、PC端实时展示,或处理为既定指标和数据包,定期发送到各个业务端,以支持公司各个层面的业务运作,成为名副其实的“核心大脑”。
从数据平台到数据服务中台
福珍是易鑫资产管理部经理,需要以日为单位统计资产质量情况。之前她只能通过手工表格的方式传递信息,现在只需在系统中轻轻一点,“智能数仓”中的BI模块就能按照她设定的规则,随时展现汇总结果。这一切得益于“智能数仓”开发的数据中台服务。
为满足业务部门对数据的使用要求,目前“智能数仓”提供了三种形式的数据服务。通过易鑫的“通天晓”服务端,用户可以看到上百种不同维度、不同口径的数据,满足各个业务部门对定制数据的要求;而在BI平台提供的数据中台,福珍这样的业务人员可根据需要自定义数据规则,设计属于自己的数据报表。此外,“智能数仓”还支持向公司十数个业务系统提供统一标准的数据接口,按照既定规则自动向业务系统派发作业任务。
“我们希望将‘技术’数仓向‘业务’数仓转变。为此,我们正在搭建业务中台,开发各种辅助工具让普通业务人员经过简单技能培训,就能更方便地通过‘智能数仓’进行工作。”徐飞介绍,目前易鑫已开发出多项辅助支持工具,如“数询”,可以让使用者快速查询获取数据;“数语”提供所有数据的精确描述,能够帮助业务人员追索数据源头和流向;“数诊”则能根据自定义规则对字段内容准确性进行评估、诊断、预警等。
更多使用者,意味着更大的风险存在。汽车金融行业的特性,要求系统对消费者个人信息进行严格的保护。为此,易鑫从2018年开始就严格规范系统内对消费者个人信息的使用。在业务端,所有个人信息提取都必须进过授权,进入“智能数仓”系统内的消费者敏感信息都进行了分级、加密和脱敏处理,所有对外输出信息都用加密字段进行传输,最大可能地保护了数据的安全使用和消费者信息不外泄。
在徐飞心中,“智能数仓”不是一种产品而是一种服务,是易鑫在服务200多万客户基础上,锤炼出的一种基于汽车金融场景的智能数据服务。它的高效、稳定运营,可精准展现各个业务的关键环节信息,帮助业务端更快、更高效地服务于消费者。
(来源:温州视线)