数据作为第五大生产要素,逐渐成为政府和企业决策的重要依据。面对数据多样化和个性化需求,以及在2B和2G行业中出现的数据质量不均、数据应用价值低下等问题,做好数据治理、提升治理能力已成为数字化转型的核心任务。基于多年的数据治理项目经验,技术团队总结出了一套有效的数据治理实施方法论。
近年来,数据治理体系建设成为行业探索的热点。《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据视为关键生产要素。不同于其他有形要素,数据是无形的且存在孤岛现象,因此提升数据治理能力是实现数据价值的必要条件。团队结合政府及企业的实际项目经验,提出数据治理平台应具备的四大核心能力:聚、治、通、用,以及PDCA实施指导思想。
四大能力建设:
聚:数据汇聚能力。面对不同来源、类型和时效要求的数据,数据治理的第一步是将各类数据接入平台。
治:狭义数据治理能力,包括数据标准、质量、元数据、安全、生命周期和主数据。核心在于确保数据标准统一,通过元数据掌握数据资产分布与影响分析,持续提升数据质量,确保数据安全可靠,同时建立数据的淘汰机制及统一的主数据管理。
通:数据拉通整合能力。原始业务数据分散在各业务系统中,数据组织需以业务流转为基础,后续的数据需求应根据实际业务对象重新组织。
用:数据服务能力。确保数据资产能够真正赋能前端业务,使业务部门能够便捷地找到并使用所需数据,是数据治理平台的重要能力。
结合数据治理项目的实际实施,提出了“PAI”实施方法论,即流程化、自动化、智能化三化论,旨在逐步提升数据治理能力,为政府和企业后续的数据赋能及业务创新奠定基础。
数据治理流程化
数据治理项目通常采用瀑布式开发模式,核心流程包括需求、设计、开发、测试和上线。流程化即将交付流程步骤详细分解,提炼和规范项目组及客户的工作内容,并明确每个流程的输入和输出。
需求、概要设计和详细设计是执行过程中的核心流程节点,以下将对此三部分进行详细讲解。
需求调研
数据项目的整体调研流程如下:
数据调研是项目的基础,需详细掌握现有业务和数据情况,准确获取客户需求,明确项目建设目标。
需求调研工作事项
上表描述了需求调研过程中的关键节点及工作内容,并说明了需求调研阶段的原则、方式及相关要求。
需求调研注意事项
(1) 需求收集:识别真正用户及其需求,关注客户管理现状、重点关注点及重复劳动。
(2) 需求验证:进行3W验证,明确使用者、使用场景及解决的问题。
(3) 需求管理:识别核心需求及行业共性。
(4) 需求确认:形成需求规格说明书,并要求签字确认。
概要设计
数据治理项目的概要设计包括网络架构、数据流架构、标准库建设和数据仓库建设四部分,明确数据如何进出平台、在平台内部如何组织及流动,以及遵循的标准与规范。
网络架构需明确硬件部署方案及待接入系统的网络情况,以满足数据接入及服务需求。
数据流架构需明确数据的处理方式及流向,以确认后续的数据加工和存储方式。
标准库建设需明确平台遵循的标准和规范,以保证建设过程的统一性,支撑后续业务赋能。
数据仓库建设需明确主题域及关键实体,以更好地支撑复杂的数据需求。
详细设计
详细设计针对项目的实际模块进行设计,明确每部分的具体工作内容、输入和输出。
数据治理自动化
在流程化的基础上,项目内容和产出逐渐明确,但会发现许多开发工作具有较高的重复性。因此,流程化后的各节点应进行自动化开发,通过配置任务的个性化部分,统一生成开发任务或脚本。自动化处理可通过采购成熟的数据治理软件或自研工具实现。在数据治理过程中,可以实现自动化的流程节点如“工序”标蓝色部分。
数据治理智能化
经过自动化阶段后,数据仓库模型设计和映射等阶段仍有大量人工处理工作。这些工作依赖于专业知识和行业经验。如何快速掌握行业知识并提供设计建议是数据治理的新挑战。智能化将为数据治理工作开辟新天地,在流程中智能化可发挥作用的节点如“工序”标红色部分。
[[[IMG_8]]
基于知识的沉淀,在数据治理过程中可进行智能化推荐。例如,在实体及属性认定时结合NLP技术和知识库规则进行相似度认定推荐,并随着行业知识的积累,后续可直接推荐行业主题模型及主数据模型。
总结
流程化是数据治理的第一步,为自动化和智能化奠定基础,需梳理和规范各节点用到的内容,包括业务流程图、网络架构图等。自动化是在流程化基础上进行的开发,涉及仓库模型设计、标准化及脚本开发。智能化是在流程化与自动化基础之上,针对数据的整合、主题模型和数据加工检查提供智能化建议,减少人工分析工作。
