睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据中台的灵魂是什么?

时间:2024-05-06来源:请摘星星给莪浏览数:8

如题:“数据中台的灵魂是什么?”

去年我写的《请不要将数据中台做成“BI”!》一文发布后,引起了数据圈内专家的广泛讨论,我通过对大家的观点进行了整理和总结,大致可以划分为两个派系:

BI驱动派和治理先行派。BI驱动派观点:BI是数据运用的重要场景,数据中台要建得好、用得好,是离不开BI的。关于这个观点其中有网友的留言十分到位:“对于大部分企业的数据中台团队而言,BI是唯一的业务,BI不仅是数据中台脸面也是数据中台的灵魂。”

治理先行派观点:数据中台建设的关键还是要看数据治理,没有治理的数据,就是“垃圾级、垃圾出”,BI做的再漂亮,也是个“然并卵”!

这两派的观点各有各的道理,说的都很在理。那么,有人就问了:数据中台的灵魂到底是什么?今天针对这个话题,聊一聊我的想法和思考。

一、数据中台的灵魂,是BI吗?

尽管BI是最容易作出成效的数据应用,但如果说BI是数据中台是BI灵魂的话,肯定会有人反对。

在最早提出中台概念的阿里巴巴的数据中台方法论中包含了3个“One”,即:OneModel、OneID和OneService,这3个One合称“OneData”体系,这套体系后来被视为数据中台的权威和标杆。以至于在后续的常见数据中台架构中,BI 一直属于数据前台的范畴,提供数据分析和可视化工具和能力。从这个角度将,BI只是数据中台的用户对象之一,它都压根不属于数据中台的范畴,怎么能称得上数据中台的灵魂呢?

就个人而言,我向来都很尊重权威,但却不会迷信权威。在2019年,阿里提出的数据中台概念的时候,我曾写过一篇文章《数据中台“热”下的“冷思考”》,这篇文章主要观点就是“数据中台”很强大不会包治百病,“OneData”有它适配的行业和应用场景,但如果去生搬硬套的话一定会死的很惨!

而把BI融入到数据架构中,形成一套“完整的”数据中台解决方案,更能适配大部分企业的数据应用需求,这没啥不好。于是,我们就看到了大部分企业将数据中台真的做成了BI!

如果从工具的角度看,数据中台和BI经常是搭配使用的。数据中台负责从数据源获取数据,然后进行清洗、整合、加工,形成前端BI需要的数据模型。BI则是引用数据中台加工好的数据模型,利用报表、图表等工具,分析和可视化数据,为决策者提供支持。

有了BI工具后,企业各级管理者就会追求更高的数据能力,例如实现自助数据分析。而从数据中台架构来看,不论是定制化的主题分析,还是自助式的数据分析,都离不开数据模型的支撑。数据模型设计的不好,BI工具再强大也无法发挥作用。

那么,数据模型是数据中台的灵魂吗?

二、数据中台的灵魂,是模型吗?

在数据中台构建之前,分析师经常发现自己没有可以复用的数据集,不得不使用原始数据依次进行数据的清洗、加工、计算指标。这就是我们经常说的:“数据分析80%时间都用在了跑数和洗数上了”!这个问题的根本原因是数据模型无法复用,导致来一个新的需求就需要从头对数据再加工一遍,从而让需求开发的周期不断加长。

在《请不要将数据中台做成“BI”!》文章留言中,很多读者都在讨论BI和数据中台的区别,有从技术角度出发的、有从业务角度出发的,还有从方法论角度出发的。而我个人认为,数据中台与BI一个最大的差别,就是数据中台更加强调数据模型的重要性。

如上图所示,按照经典数仓分层架构,数据中台的模型层一般也会分为四层:ODS、DWD、DWS、ADS。(注:关于数仓分层,本号中有大量的相关推文,可在历史文章中查找,此处不在赘述)。

如果你有兴趣可以对所有分层的表的使用情况做一个统计,你会发现:有的表基本没有被上层调用,这说明这些表基本没有办法复用。而有的是大量数据应用层直接调用ODS层表,这说明DWD、DWS层的设计缺失,久而久之势必会产生性能瓶颈。

这都是数据模型设计不好带来的问题,而一个好的数据模型需要具备规范性、复用性和完备性三个特点。

1、规范性。这个大家一般都很清楚,这里我在强调一下:

第一,数据模型分层的规范性,例如:上图我们分为四层,即:ODS、DWD、DWS、ADS。

第二,数据模型流向的规范性,数据流向必须是正向流转,即:ODS–>DWD–>DWS–>ADS,禁止出现反向依赖,例如DWS的表依赖ADS的表。

第三,数据模型命名的规范性,如:表命名规则、词根规则、临时表规则、调度任务规则、修饰词规则等。

2、复用性。通过元数据的数据血缘,可以看到,一个比较差的模型设计,自下而上是一条线。而一个理想的数据模型设计,它应该是交织的发散型结构。

3、完备性。这也很好理解:如果汇总层数据无法满足需求,使用数据的人就必须使用明细数据,甚至是原始数据。一个完备的数据模型,需要将尽可能多的维度、度量考虑进来,而这个能力不是一朝一夕就能具备的,他不仅需要深厚的技术功底,还需要渊博的业务知识。

综上,我们所有的模型全部规范设计了,那数据中台就有了灵魂了吗?

我记得19年的时候,我与一家企业做数据中台方面的交流,凭借多年在数据领域的经验和对当时“数据中台”这个新概念的理解,我对数据中台的理念、技术、方法、价值等,巴拉巴拉~~~ 可劲的一顿输出。期间还特别强调了数据模型重要性,以及它对数据应用的价值。

讲完之后的交流环节,客户提出了一个灵魂问题:你讲得非常好,可是我们没有数据怎么办?

当时,我就被问得一头黑线、尴尬在了原地。是呀,巧妇难为无米之炊,数据都没有,还谈个“鸟的”数据中台!

三、数据中台的灵魂,是数据吗?

我们天天都在谈“数据要素化”,要如何如何让数据产品变成数据商品,要如何推动数据流通和变现,大家似乎都在讨论“how”,而忽略了“what”!要知道,数据才是这一切的基础。我们用数据中台处理数据,用数据前台(BI工具)分析数据,但不管你是什么台,没有数据一切都是白扯。

有人说,数字化时代,数据好比黄金!

其实,在笔者看来:将数据比作黄金是低估数据的价值了。

在《数据资产管理:数据到底有没有价值?》一文中,笔者提到:黄金是有规格的,它的规格限制了它的价值。一定的纯度,一定重量的黄金,其市场价值比较容易计算。而数据具有可复制性、易传播性、虚拟性,用的人越多其价值就越大。另外,对于相同数据不同人、不同方式使用其价值也不一样。

对企业而言,数据是企业生产、经营、战略等几乎所有的经营活动所依赖的、不可或缺的信息。数据就如企业经营者的眼睛,通过数据可以反映出经营的问题。

财务人员掌握全局财务数据,就能够帮忙老板作出更好的战略布局,提高企业决策力;

管理人员掌握全面人才数据,就能更好的让合适的人,干合适的事,增强企业整体竞争力;

产品人员掌握市场数据、用户数据,就能以跟高的效率生产出更好的产品,提升企业生产力;

营销人员掌握客户数据,就能更深入了解客户,为客户提供更好的产品和服务,提升企业营销力;

黄金提纯的价值尚可计算,数据利用的价值不可估量,有人用数据记录历史,有人用数据预测未来!

然而,有了数据,就真的拥有真相了吗?有了数据,就真的可以驱动业务了吗?有了数据,企业就真的可以智慧了吗?有了数据,数据中台就真的有了灵魂了吗?

2014年,大数据刚刚兴起的时候,我参与了一个大数据项目的建设,当时客户要求把所有信息系统的全部数据都统一采集到大数据平台管理。具体怎么用这些数据,客户也没有什么想法,用客户的说法:“甭管它怎么用,先管起来再说”。

估计大家也能够猜得到,这个项目最后还是无疾而终了。没有需求,盲目的采集数据,以为是为企业汇聚了一个“数据湖”,实际上没人打理、没人使用,且数据质量“脏乱差”的“数据湖”,已经不能称之为“数据湖了”,那只是一片“数据沼泽”!

四、数据中台的灵魂,是治理吗?

“无治理、不数据”!

数据就像铁矿石——它一定是有价值,但如果你不懂冶炼,不对它进行炼化和提纯,那么从价值的角度,铁矿石和普通的石头确实没有啥差别。这就是数据治理的价值,将数据资源加工为数据资产,让原始的数据材料,转化为有价值的信息。

关于数据治理,笔者在《一本书讲透数据治理》中提出了“道法术器”的治理方法论,旨在帮助企业建立数据治理体系,优化数据治理流程,规范数据操作,提升数据质量,赋能数据应用,挖掘数据价值。这其实是与企业建设数据中台的目的是相辅相成的。

之前,有企业咨询:我们有了数据中台,要不要做数据治理?

也有人问:我们做了数据治理,是不是就不需要上数据中台了?

其实在笔者看来,数据中台与数据治理,并不是谁涵盖谁的关系,而是相互协同、互为支撑的关系,它们是实现数据驱动的“两个轮子”。因此,我们看到目前主流的数据中台解决方案,都包括了数据治理内容。数据治理制定了数据“采存管用”的策略,数据中台来落地这个策略,通过数据中台与数据治理的双轮驱动,帮助企业实现数字化转型

在数据中台的建设中,数据治理主要起到的作用包括:

1、数据质量保障

数据治理通过规范和流程确保数据的质量和准确性,提供高质量的数据给数据中台供各业务应用使用,保证数据中台提供的数据是可靠和准确的。

2、数据一致性和标准化

数据治理通过规范和标准化数据的定义、命名和格式,确保数据中台中的数据具有一致性,使得各个业务应用能够基于相同的数据进行分析和决策。

3、数据安全和合规性

数据治理可以建立数据的安全策略和权限控制机制,保护数据的安全性和隐私性,确保数据中台中的数据符合相关法规和合规要求。

4、数据共享和协作

数据治理可以建立数据共享的机制和规范,促进不同部门和业务应用之间的数据共享和协作,提高数据中台的数据利用效率和价值。综上,数据治理它通过规范和流程确保数据的质量和准确性,保证数据的一致性和标准化,保护数据的安全性和合规性,促进数据的共享和协作,从而提高数据中台的价值和作用。

那么,数据治理是数据中台的灵魂吗?

聊到这,我相信包括我个人在内的大部分人都会认为从价值角度来讲,数据治理可以称为数据中台的“灵魂”。

但是这个观点一定也会遭到质疑。因为,还有一种说法“数据中台是为数据服务而生!”。通过在企业内部建立一个集中管理和共享数据的平台,将分散的数据资源整合起来,通过统一的数据接口和服务,为企业的各个部门和业务应用提供数据支持,提升数据的价值和利用率。

五、数据中台的灵魂,是服务吗?

数据通过数据中台的采集、汇聚、加工、处理之后,形成了企业的数据资产。但这还不是数据中台的终点,数据中台更大的职责是需要需要构建数据服务层,通过接口服务化的方式将数据提供出去,让更多的部门、更多的业务应用来使用。

笔者之前提出数据中台有应该“三力”:治理力、分析力和连接力。其中,治理力和分析力我们前边讲过了,下面我们重点聊一聊数据中台这第三个能力:连接力。

数据服务层作为数据中台整体应用架构中处于中间地位,为数据模型和数据应用之间构建了一座连接的桥梁,将数据计算层的结果通过数据API的形式对外共享给数据应用层。

目前主流的数据中台架构中,提供的数据服务主要包括:

跨源数据服务:提供跨源数据整合和访问接口和工具,统一数据接入层,屏蔽多种异构数据源的读写差异,减少数据访问和应用成本。

主题式数据服务:基于元数据和规范定义和建模,构建主题逻辑表,屏蔽复杂物理表,提供业务视角下的查询。

一站式查询:数据服务最终将用户访问的API 转化为底层对各种数据源的访问,实现对数据中台数据的一站式查询,提供数据检索、联机分析、实时查询等,提升数据查询的效率。

全链路打通:数据和应用的分离会导致数据血缘无法完整追溯,数据服务不仅提供了连接数据和应用能力,还通过服务授权以及访问监控等功能,将数据API的访问情况实时写入元数据中心,形成完整的数据血缘。

订阅交付能力:数据API构建完成,并不需要数据消费者重复构建集成通道,而是通过授权“订阅”的方式,让数据消费者通过接口快速使用数据。

API网关服务:API网关服务使用云原生技术提供了服务API的统一管理和监控能力,包括:服务注册、服务自动发现、认证授权、流量控制、超时熔断、安全控制、监控分析等。

数据服务的形式是API。说到API,不少人认为它只是一项技术,10年前可能我们都是这么理解的。但在目前的数字化阶段,API已超越了技术的范畴,从对技术的要求转变为商业战略和商业模式的需求。数据服务API为企业内部数据共享,产业链上下游数据互通,提供了连接能力,数据服务API不仅用在数据交互和数据应用层面,对数据的开放、流通和交易也起着重要的支撑作用。

数据服务层(OneService)改变了传统的数据集成和交付方式,所有整合到数据中台的数据都通过数据服务提供,数据服务对外暴露的不是数据而是接口,数据消费者不用直接获取数据,而是通过接口服务获取。数据服务API无疑是数据中台不可或缺的重要功能。

但,数据服务真的是数据中台的灵魂吗?……

写在最后的话

其实,不论是BI、数据模型,还是数据治理、数据服务,亦或是数据本身,每一个对数据中台都是必不可少的组成。或许这篇文章没有讨论清楚数据中台的灵魂到底是什么。我们在讨论哪一个才是数据中台的灵魂的时候,其实重点是要大家看到他们对企业数字化重要作用和价值。最后,您认为数据中台的灵魂是什么?欢迎在留言区讨论,我看看谁的观点和我的想法最接近。

来源:谈数据,作者:石秀峰

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询