随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大数据的快速发展,使它成为IT领域的又一大新兴产业。大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。企业因历史原因在发展过程中汇集到数据平台的数据多、乱、差,缺乏标准、规范、治理的数据已经失去了使用的价值。如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。为了凸显数据业务价值,规范数据处理过程,需对数据进行综合管理,构建自动化、流程化、一体化、标准化的数据治理体系,确保数据加工条理清晰、数据架构规划合理、数据知识可传承、数据处理可管控。
一、企业数据治理流程
1、对企业数据进行归集和标准化
在信息化领域,用脏乱的数据做样本,产生的研究成果也是毫无价值的。低质量数据产生在数据采集、传输、加工、交换、存储等数据生命周期各个环节。因此要保证数据治理目标的实现,就必须对数据进行全流程的管控,要在数据质量、数据标准、元数据、数据文件交换、主辅数据源、数据生命周期、数据责任、数据安全等方面形成统一的数据治理规范。
2、数据模型管理和标签梳理。
在实际的
数据治理中,数据标签、数据分类、数据资源目录是相互配合、相辅相成的。明确数据资源的分类,根据数据分类去组织资源、编目是建立良好的数据资源目录的第一步。数据标签是对数据实体特征的符号表示,每一个数据标签都是我们认识、观察和描述数据实体的一个角度。为数据资源打上数据标签,让数据资源更贴近用户、更容易管理,以便充分发挥出数据的价值。
3、企业算法和人工智能应用。
在对企业数据进行归集和标准化,并对数据模型进行管控和标签梳理之后,就可以对数据进行管理,并辅之以相应算法和人工智能,在具体业务场景应用。
以元数据管理为例:人工智能实现对非结构化数据的采集和关键信息的提取,并实现元数据的维护和整理。
以主数据管理为例:主数据是企业核心业务实体的数据,是在整个价值链上被重复、共享应用与多个业务流程的,并与各个业务部门与各个系统之间共享的基础数据。在复杂数据主数据系统中,机器学习,自然语言处理等人工智能技术可以帮助定义和维护数据匹配规则,以及确定与主数据相关的记录,建立交叉引用等规则。
以数据模型管理为例:人工智能可以帮助企业实现经验模型与计算机模型的完美融合,构建商品和会员的知识图谱。