核心摘要:
治理需求热潮:企业在数字化转型过程中先建设后治理的常态,使得数据治理愈发受到企业重视,另一方面,新兴技术与应用场景的快速落地,也带领数据治理需求在加速攀升。未来,随着非结构化数据的积累增加与AI应用的数据需求推动,企业对非结构化数据的价值化需求将加速释放,而多源异构数据基础下的数据治理模块也将获得进一步的关注与优化。
治理体系升级:目前传统数据治理体系多停留在结构性数据化治理工作,尚难满足AI应用对数据的高质量要求。企业可吸收传统体系的智慧沉淀,以AI应用数据需求为核心,优化建设“面向人工智能的数据治理”体系,显著提升AI应用的规模化落地效果。依托于数据与AI模型的紧密关联,数据治理与AI应用产品已逐步开展交汇融合,厂商参与更加多元,咨询公司、数据服务提供商和人工智能产品服务商三方阵营构建行业竞合格局。2021年面向人工智能的数据治理市场规模约为40亿元,预计五年后规模将突破百亿。
治理实践洞察:本篇报告选择金融、零售、医疗和工业四大典型行业为切入点,分析呈现各行业的信息化建设阶段与高频高价值的AI应用场景,并基于高频高价值AI应用引发的数据治理需求,对面向人工智能的数据治理体系搭建给到建设指导,同时对数据治理陷阱与发展趋势给到洞察分析:1)企业需避免落入“数据埋点大而全”的治理陷阱;2)供需两侧需共同保证数据治理体系建设后的运营流转;3)企业需建立符合管理现状及发展需求的数据安全治理框架,确保数据全周期的安全与合规;4)联邦学习技术可带来数据安全合规线内的共同富裕;5)数据的“自治与自我进化”成为未来数据处理发展的必由之路,为企业打造“治理+AI”体系的良性循环。
数据:范围界定
信息经济的“货币”,早已不限于数字形式
数据的价值被不断认可,“数据资产化”已经成为了企业发展的重要组成部分。长期以来,数据被理解为以数字形式存储的信息,而目前技术可以测量更多的事件和活动,人们可以收集、存储并分析这些不被视为传统数据的各类信息,如邮件、图片、音视频等。数据可根据其特性及治理方法差异划分为内部数据与外部数据,结构化数据、非结构化数据与半结构化数据,元数据与主数据等。
数据量:爆发式增长
基础设施“扩容”、IoT 广泛连接带来的数据量暴涨
数据时代来临,数据量的暴涨为企业数字化提供了基础支撑,大量的业务数据能够被采集、存储并最终创造经济效益。而很多企业在前期的信息化建设中,缺乏统筹规划,为解决当下业务问题而按照垂直的、个性化的业务逻辑独立采购与部署IT系统,导致企业内部形成多个数据孤岛。数据不规范、不一致、难以互联互通成为普遍问题,阻碍企业去充分发挥数据价值。这种先建设后治理的常态,使得数据治理越来越受到企业的普遍重视,另一方面,新兴技术与应用场景的快速落地,也带领数据治理需求在加速攀升。
数据治理:需求释放
治理需求普遍存在,非结构化数据成为价值挖掘的重难点
企业历经数字化转型不同阶段时,需通过数据治理解决数据在生产、管理和使用中的问题,而数据治理的需求与复杂度也会随着企业数字化程度提升而增加。从企业内部的数据类型来看,非结构化数据占企业内数据总量的80%,却仅占整体使用率的30%,长期以来其价值未得到充分有效利用。未来,随着非结构化数据的积累增加与AI应用的数据需求推动,企业对非结构化数据的价值化需求将加速释放,而多源异构数据基础下的数据治理模块也将获得进一步的关注与优化。
数据治理:范围界定
数据治理为实现企业数据应用服务的重要环节
数据治理以数据源汇入为伊始,对数据进行清洗加工,并在数据存储、数据计算、数据服务应用等环节予以持续的治理服务,是企业实现数据服务与应用的重要环节。从数据层面来看,数据本身存在着从生产到消亡的生命周期,而数据治理会在数据生命周期的各阶段通过相应工具与方法论进行规范与定义,在企业内部构建出切实有效的数据闭环,使数据发挥出更大的价值。
数据治理:体系架构
结合企业的特点及需求,设计符合企业要求的数据治理架构
虽然业界对数据治理的定义不尽相同,但涉及的数据架构模块大体一致,核心包括数据标准管理、数据集成管理、元数据管理、主数据管理、数据资产管理、数据质量管理、数据模型管理、数据服务与数据安全管理模块。依托于企业对数据治理的侧重点不同,数据治理体系与架构也会根据企业所在的行业特点、经营性质及信息化程度的不同而有所差异。在实际设计时,一方面,企业可参考先进体系框架与行业最佳实践,另一方面,企业也需从实际需求与发展需要出发,设计搭建适合自身情况的数据治理架构。
AI应用规模化
AI技术创新应用大规模落地,带动大数据智能市场蓬勃发展
近年来,随着新技术模型出现、各行业应用场景价值打磨与海量数据积累下的产品效果提升,人工智能应用已从消费、互联网等泛C端领域,向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、营销等经济生产活动主要环节的人工智能技术与应用成熟度在不断提升,加速人工智能在各环节的落地覆盖,逐渐将其与主营业务相结合,以实现产业地位提高或经营效益优化,进一步扩大自身优势。AI技术创新应用的大规模落地,带动了大数据智能市场的蓬勃发展,同样也为底层的数据治理服务注入了市场活力。
大数据智能市场的行业规模
2021年市场规模约为553亿元,金融数据率先得到价值释放
据艾瑞咨询统计测算,2021年涵盖大数据分析预测(机器学习/深度学习模型)、领域知识图谱及NLP应用的大数据智能市场规模约为553亿元,预计2026年市场规模将达到1456亿元,2021-2026CAGR=21.3%。随着市场大数据基础的完善与数据需求的唤醒推动,大数据智能市场的规模将持续走高,但未来在行业理性建设与增量市场逐步完善的大背景下,大数据智能市场增速会出现下降趋势。从细分结构来看中,金融领域的数据价值率先得到释放,市场规模占比高达32%。
大数据智能市场的投融资热度
融资规模稳步提升,事件数量创历史新高
从2011-2021年的投资数量来看,资本市场对大数据智能市场的关注度不断提高,融资事件逐年攀升,2021年大数据智能市场单年投融资数量已高达99起;从2011-2021年的融资轮次来看,C轮及早期投融资事件占比达到50%。受政策的高度支持与技术的成熟推动,大数据智能应用在多行业的成功落地极大地增强了市场与投资者的信心,“大数据智能”标签已成为市场创业与投资的热点,具备市场想象空间与明确使用价值是企业早期吸引投资的关键。
大数据智能产业生态圈
面向人工智能的数据治理:需求传导
人工智能应用引发的数据治理需求
企业在部署AI应用时,数据资源的优劣极大程度决定了AI应用的落地效果。因此,为推进AI应用的高质量落地,开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应用的高质效落地,企业仍需进行面向人工智能应用的二次数据治理工作。
面向人工智能的数据治理:反复治理
面对反复的治理工作,搭建针对性体系解决重复性环节
数据治理在人工智能项目的实施中花费90%以上的精力,而面对企业的各人工智能项目,在AI数据层面多存在反复治理工作,极大拉低了AI应用的规模化落地效率。借助有效的方法论和实用的工具提高数据治理的效率,是企业管理数据资产与实现AI规模化应用的重要课题。搭建面向人工智能的数据治理体系,可将面向AI应用的数据治理环节流程化、标准化和体系化,降低数据反复准备、特征筛选、模型调优迭代的成本,缩短AI模型的开发构建全流程周期,最终显著提升AI应用的规模化落地效率。
面向人工智能的数据治理:体系搭建
吸收传统体系智慧沉淀,以AI应用数据需求为核心优化建设
面向人工智能的数据治理是传统数据治理体系在以AI应用落地为导向下的体系“升级”。从数据管理维度来看,面向人工智能的数据治理体系仍会根据数据结构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。而在数据治理过程中,则会更强调底层实现多源数据融合、数据采集频率、数据标准建立、数据质量管理,满足AI模型所需数据的规模、质量和时效,以AI应用的数据需求为核心,优化对应模块的体系建设。
面向人工智能的数据治理:数据准备
基于AI模型需求明确数据的特征准备、实时与否和闭环流通
从搭建流程来看,AI模型可大致分为离线训练和上线推理两个阶段。离线训练时,需基于AI模型运行目的确认数据采集来源,选择数据对应的时间间隔和时间节点,让AI能够在离线建模及上线运行后获取真实业务数据,模型训练效果能够保质保量落地。如果模型需要AI数据的实时接入,还需打造批流一体式的产品体系。基于实时数据处理、实时特征开发和实时应用开发等数据架构搭建批流一体的数据产品,将流式数据的接入实时反馈到模型运行输出,使模型结果更加及时准确。另外,AI模型上线后,需达到AI数据的闭环流通,通过打造数据采集和回馈分析的闭环式自学习体系,达到AI模型上线后的持续迭代优化。
面向人工智能的数据治理:数据质量
对应AI应用的高质量要求,唤醒沉睡数据,挖掘核心价值
多源异构数据的质量管理体系可从数据有效性、数据一致性、数据唯一性、数据时序性、数据完备性、数据完整性、数据合理性和数据准确性六个维度建立。其中,传统数据治理体系同样会高度关注数据的有效性、一致性和唯一性,但当数据治理范围扩大到多源异构数据时,需在数据融合过程中对这三个维度进行重新判断。数据时序性是对数据时间维度的质量要求,考虑数据接入的实时性和如何选择数据的时间间隔;数据完备性要求数据需符合多维度字段特征以满足建模,数据完整性则对数据从历史到上线反馈的完整性接入以达到优质闭环;数据合理性和数据准确性则是对数据本身表达的更高质量要求。传统数据治理体系为做数据可视化和数据基本分析应用服务时,不会过多考虑到数据分布是否合理及表达内容是否准确等问题。然而在AI模型开发训练时,数据的合理分布和准确表达极大程度上决定了AI模型的分析决策效果,因此在面向人工智能的数据治理体系中,数据合理性和数据准确性的质量评估是体系需重点关注提升的维度模块。
面向人工智能的数据治理:数据标准
为AI模型开发提供“一致的数据语言”,实现数据复用共享
数据标准是数据治理工作的开展基础,为AI模型开发及应用提供“一致的数据语言”。在面向人工智能的数据治理体系中,数据标准的建立仍是数据实现共享流通、价值挖掘的核心环节。企业根据对应的国家标准、行业标准、地方标准等规范,结合自身情况和业务术语参考,以AI应用需求圈定的数据范围为治理导向,构建相关基础数据标准、指标数据标准和数据模型标准,形成全局统一的数据定义与价值体系。
面向人工智能的数据治理:特征管理
将多源异构数据源转化为机器可理解的“结构化数据”
在圈定AI数据源范围并接入相应数据后,特征管理中台会对数据进行预处理,基于AI应用的数据要求处理缺失值、异常值、重复值和数据格式等问题,而后经过特征工程转化为人工智能模型可理解的结构化数据。在特征化工程环节中,面向人工智能的数据治理体系可浓缩沉淀业务场景中的数据治理和模型开发经验,对AI数据形式进行标准定义,搭建特征管理中台,将特征工程环节标准化、自动化、智能化,快速对接得到可被机器理解的优质结构化数据,投喂给AI模型。
面向人工智能的数据治理:效果优化
显著提升AI应用的规模化落地效果
数智融合产业带来多元厂商参与
数据治理与AI应用开展交汇融合,厂商参与更加丰富多元
依托于数据与AI模型的紧密关联,数据治理与AI应用产品已逐步开展交汇融合,展现“由数据治理到开发AI应用平台/产品”与“AI应用平台/产品开发到面向AI的数据治理”的两路发展方向:1)数据治理厂商在积累数据经验与AI模型理解后,为实现业务拓展而将领域从数据层延伸至AI应用及平台开发层;2)从事AI应用及平台开发的AI厂商,也会在数据治理经验不断丰富的背景下,着手向底层开展面向AI的数据治理业务,依托于自身AI技术与业务理解,让面向AI的数据源更加契合AI应用模型要求以提升模型拟合效果。因此,面向AI的数据治理从业者不仅仅为数据治理厂商,更包括众多AI企业,参与者更加丰富多元。
数智产业生态圈的受益节奏
三方阵营厂商构建行业竞合格局
AI应用的加速落地带来的大量数据治理需求,吸引众多厂商参与其中。从行业厂商类型来看,主要包括咨询公司、数据服务相关提供商和人工智能产品提供商三类。各类厂商根据自身业务特点和切入方式获得差异化的竞争优势,而由于面向人工智能的数据治理服务的参与立足点丰富,厂商之间可能基于同类业务展开竞争,同时在差异化领域进行合作,形成竞争与合作高度共存的行业格局。
数智产业生态圈的参与立足点
“智”为面向人工智能的数据治理服务的核心立足点
面向人工智能的数据治理服务常包含于数据服务、平台能力和数据产品三类采购形式中。第一类,数据服务即以单独的数据治理产品形式出现;第二类,数据平台,主要包括大数据平台、数据中台、数据仓库和AI能力平台等项目;第三类,数据产品,范围限定在应用AI算法的数据产品,可划分为机器学习产品、自然语言理解产品和知识图谱三类AI产品。为保证AI算法模型的优质运行效果,更好地提供预测、决策、推荐和风控等产品功能,需要对算法模型的训练原料,即支持AI应用的底层数据,进行针对性优化治理。如今AI产品需求旺盛,AI开发平台陆续推进AI产品的规模化落地,且AI数据治理效果与最终平台产品交付效果紧密相连,AI应用驱动成为面向人工智能的数据治理服务的核心立足点。
面向人工智能的数据治理:市场规模
2021年市场规模约为40亿元,预计五年后规模突破百亿
2021年中国面向人工智能的数据治理市场规模约为40亿元。受数据平台服务、数据治理服务和AI应用建设的需求推动影响,面向人工智能的数据治理市场规模将持续上升,2026年突破百亿,达105亿元,2021-2026CAGR=21.3%。2021年,中国数据治理市场规模约为121亿元。作为数据服务的基础工作,中国数据治理市场规模将保持上扬态势,预计2026年市场规模达到294亿元,2021-2026CAGR=19.5%。从发展曲线来看,中国数据治理与面向人工智能的数据治理市场规模增长均处于良性区间,共同巩固相关治理产业生态圈的向好形势。
面向人工智能的数据治理:时机路径
契合客户的数据基础和AI应用需求的多元化选择
从数据基础的维度划分,可将企业分为数据原生企业与非数据原生企业。数据原生企业往往不需要信息化、数字化转型,所要做的即为让数据共享流通的规范式管理。非数据原生企业天然缺乏以软件和数据平台为核心的数字世界入口,往往要进行企业的数字化转型,需通过数字化转型程度与数据治理阶段判断非数据原生企业的数据基础优劣。面对不同企业类型,可结合企业数据基础与AI应用需求,为面向人工智能的数据治理的体系搭建提供契合路径,完成企业数据体系的进一步升级。
数据埋点的大而全陷阱
抓大放小,从核心数据着手
数据埋点是指针对特定用户行为或事件进行捕获,处理和发送的相关技术及其实施过程,是数据治理中范围圈定的一环。出于对投资回报的考虑,客户往往倾向于做一个覆盖全业务和技术域的、大而全的数据治理项目,将每个数据都纳入到数据治理的范围中,这就导致进行数据埋点时放纵提需,埋点需求爆炸,给后续的数据治理和数据分析带来隐患。为避免数据埋点的大而全陷阱,企业应该做到抓大放小,谨记2/8原则——80%的问题产生于20%的系统和数据——从最核心的系统、最重要的数据、最容易产生问题的地方开始着手做数据治理。
数据治理体系的流转运营
沟通、组织、聚焦、文化
为能充分发挥数据治理的价值、避免一次性数据治理,供需两侧要齐心协力,共同、持续、优质地运营数据治理体系。数据治理是系统性工程,是由上至下指导,由下而上推进的体系工作。因此,供给侧企业与需求侧厂商,在体系运营和建设方面需形成共识,具备明确的目标、合理的组织、严格的监管、完善的系统,这样才能使数据治理工作得到保障,达到体系的流转运营。
关注数据治理中的安全合规性
完善数据安全治理框架,确保数据安全合规
数据泄露事件在大数据时代层出不穷,随着行业新网络形态、新技术以及新应用场景的发展,新的数据类型、数据生产方式、数据处理方式和终端形式不断涌现,数据安全挑战也随之加剧。国家已出台各级各行业的法律法规及配套文件,不断加大数据安全与隐私保护的监管力度。对此,企业需建立符合企业管理现状及发展需求的数据安全治理框架,数据在采集、存储、传输、处理上均有对应的执行管理依据,做到挖掘数据资产、发挥数据价值的同时,确保数据全周期的安全与合规。
联邦学习带来数据治理升华
治理升华,数据安全合规线内的共同富裕
在数据治理及准备过程中,企业一方面需要尽可能全面的获取数据以扩充训练样本规模,另一方面出于隐私与安全的相关要求不能随意收集、融合和使用数据进行AI处理。为解决以上难题,联邦学习技术应运而生。联邦学习的建模原理为基于分布在多个设备上的数据集构建机器学习模型,通过安全多方计算、差别隐私、同态加密等技术为模型提供隐私保证以防数据泄露。因此,联邦学习可有效打通企业间的数据孤岛,并将数据可用而不可见,在满足数据安全合规的基础上,通过连通协同发挥出数据的更高价值。目前,联邦学习技术已成为大数据智能厂商的核心开拓方向,率先在金融、医疗和政务等领域展开应用。
数据的“自治与自我进化”
将数据治理流程化、自动化、智能化
数据规模的指数级增长给数据治理工作带来巨大压力,传统人工方式做数据的清洗、分辨与调优使治理工作耗时冗长,带来高昂的人力成本,且愈发难以满足智能应用对数据在规模量与质量的高要求,传统的人工数据治理工作已变得捉襟见肘。如今,人工智能和RPA等技术手段已被逐渐应用于数据治理的模型管理、质量管理、资产管理、元数据管理等模块,最终实现数据系统的“自治与自我进化”。总体来看,前沿技术手段应用可以让数据治理工作趋于流程化、自动化与智能化,同时让数据变得可扩展、更负责可溯、更可信,已然成为未来数据管理发展的必由之路。
打造“治理+AI”体系的良性循环
相互关联,互为依托,共同促进人工智能应用的内外发展
面向人工智能的数据治理充分利用机器学习技术,将数据治理环节自动化、智能化,可极大提升数据治理工作效率,同时基于自然语言理解和知识图谱挖掘关联非结构化数据的应用价值,解决数据质量管理的传统难题,使治理后的数据更加契合AI应用的要求,从效率和质量双侧推进AI模型的落地应用。同时,AI应用落地效果的显著优化也会给企业带来更多智能化转型信心,让其加大相关AI项目的预算投入,进一步推进了相关治理体系建设,打造“治理+AI”的良性循环。