目录 1. 开展数据资源全面梳理 2. 开展数据资源质量评估 3. 规范化识别数据资产 4. 规范化编制数据资产台账 一、开展数据资源全面梳理 数据资源是编制数据资产台账的基础。组织须在全局视角下,以业务活动和管理活动为导向,系统全面地梳理汇总散落在各处的数据资源,并依据一定的标准规则进行分门别类,这是摸清数据家底的必由之路。 1.1 厘清数据资源范围 组织的数据资源是海量的、多源异构的,存在于业务系统、办公系统、运维监控日志等各类IT系统中,呈现出碎片化的特点。开展数据资源梳理首先需要明确梳理对象和范围。一方面,从横向来看,既要覆盖总部各部门,也要辐射分支机构,既要涵括在线的结构化数据库,也要兼顾离线的非结构化数据。另一方面,从纵向来看,不但要梳理当前应用的业务数据,也要考虑归档的历史数据。唯有梳理对象全面系统,才能最大程度还原组织的数据资源全貌。 1.2 盘点现有数据资源 在明晰梳理范围后,组织需要动员各单位负责人开展数据普查,对本单位应用系统中的数据表/文件进行逐一登记造册,包括数据内容、数据量、数据格式、更新频率、所在位置等关键要素。鼓励采用问卷调查、座谈讨论、一对一访谈等方式,多渠道获取数据资源的静态信息和动态信息。同时,组建数据资产管理团队,利用数据发现工具扫描主要业务系统,提取数据资源的技术元数据,并与单位填报的数据资源信息表进行比对校验,以期获得全面准确的数据资源盘点清单。 1.3 对数据资源进行分类 面对盘点采集到的海量数据资源,还需要进行系统梳理分类,理出头绪。一般可基于数据的业务属性、管理属性、安全属性等开展多维度分类: 1. 基于业务属性,可将数据资源划分为人力资源数据、财务数据、客户数据、产品数据等; 2. 基于管理属性,可将数据资源划分为业务主题数据、共享交换数据、统计报表数据、归档数据等; 3. 基于安全属性,可将数据资源划分为公开数据、内部数据、秘密数据、机密数据等。基于科学的分类标准,将松散分布的数据资源进行规整归类,能够便于组织从全局视角分析其结构性特征,也为后续的数据资产评估、共享开放管理等提供基础支撑。 二、开展数据资源质量评估 海量的数据资源并非全都能够作为数据资产登记造册,其能否转化为数据资产,很大程度上取决于数据质量的高低。组织要根据数据资产的内在价值属性,制定科学合理的数据质量评估指标,开展数据资源质量评估,剔除劣质数据,筛选优质数据资产。 2.1 明确数据资产价值评估维度 数据的价值属性是数据资产的本质特征。我们通常从以下几个维度来考量数据资产的价值:一是数据的基础属性,如数据的完整性、准确性、时效性、一致性等,直接决定数据产品的质量;二是数据的稀缺性,独特性强、替代品少的数据价值相对较高;三是数据的关联性,不同来源数据的关联整合能够产生更大价值;四是数据的应用价值,在业务经营管理和数据要素市场中应用广泛的数据价值更高。因此,组织要在全面评估数据资产多重价值属性的基础上,构建起科学规范的数据资产价值评估指标。 2.2 制定数据质量评估标准 数据质量是数据资产价值的决定性因素,直接影响数据应用的有效性。为客观评判数据资源的质量优劣,支撑数据资产遴选,组织须针对不同类型的数据资源,分别制定结构化数据和非结构化数据质量评估的标准规范。一般来说,结构化数据质量评估的关键指标包括:完整性、准确性、一致性、及时性、唯一性等;针对非结构化数据,还应考虑可读性、相关性、可解释性等指标。在明确评估指标后,各指标还需设定相应的阈值标准,以判定数据资源是否达到规定的质量要求。同时,建立健全数据质量评估的规章制度,明确评估的流程方法、职责分工、结果应用等,确保数据质量评估工作持续规范地开展。 2.3 开展数据资源质量评分 质量评估标准建立后,组织就可以对全量的数据资源开展质量评估工作。一方面,各数据提供单位对本部门的数据资源开展自评,对照质量评估指标,逐条打分,计算数据资产的质量评分;另一方面,组织抽调业务骨干和数据专家组成评估小组,采取抽样或者全面评估的方式,对各单位的数据资源质量开展复核评分,将自评得分和复评得分进行加权平均,形成数据资源的最终质量评分。数据资源质量评分可作为数据资产遴选的重要依据,当评分达到规定标准时,该数据资源可被确定为组织的数据资产;当评分较低时,组织要及时反馈,并督促相关单位开展数据质量的清洗、修复、完善,直至符合数据资产的质量要求。 三、规范化识别数据资产 数据资源经过盘点分类、质量评估后,还需要进一步从中识别可被纳入数据资产管理范畴的对象,明确界定数据资产的内涵外延,规范化梳理形成数据资产目录,这是编制数据资产台账的重要基础。 3.1 明确数据资产的定义 什么是数据资产?由于缺乏统一规范,不同组织对数据资产有不同理解。一般而言,数据资产是以数据资源为基础,经过标准化的采集、汇聚、治理、加工,最终可被广泛应用,产生实际效益或潜在价值的数据产品。这一定义揭示出数据资产的本质特征:一是数据资产的物理载体是数据;二是数据资产须经过标准化处理形成;三是数据资产具有广泛的应用性;四是数据资产能够产生现实效益或潜在价值。因此,识别数据资产要以数据资源为基础,同时还要考察其质量、标准化程度、应用广度以及价值属性等多重因素。 3.2 确立数据资产的判别标准 基于数据资产的概念内涵,组织要建立一套规范的数据资产判别标准,明晰哪些数据资源可被纳入数据资产范畴。通常采用的判别标准如下: 1. 数据资源的准确性、完整性、一致性、时效性等数据质量指标达到规定标准; 2. 数据资源已经过治理加工,并采用组织认可的技术标准、数据标准和元数据标准; 3. 数据资源在全组织范围具有通用性,能够支撑共性业务的开展; 4. 数据资源能够为组织创造实际效益或潜在价值,例如提升经营管理效率、优化业务流程、创新产品服务等。只有全面满足上述标准的数据资源才能被视作组织的数据资产。各单位可对照数据资产判别标准,逐一评估筛选本单位的数据资源,形成本单位的数据资产识别清单。 3.3 形成规范的数据资产目录 组织汇总各单位的数据资产识别清单,经过论证评估、去重合并,最终梳理形成统一规范的组织级数据资产目录。数据资产目录一般采用主题-类目-表级的三级目录结构,并遵循统一的命名规则、编码规则。在一级主题目录中,可根据组织的核心业务,设置人力资源、财务资源、业务运营等主题;在二级类目目录中,可根据各主题的分类需求,划分人员、组织、考勤等类目;三级表级目录中则是一张张具体的数据表或文件。这样的目录结构清晰规整,为数据资产全生命周期管理提供了基本框架。 3.4 构建数据资产管理模型 在明确界定数据资产、梳理形成目录的基础上,组织还需要进一步构建数据资产管理的框架模型,包括: 1. 基础元数据:数据资产台账的基础信息,如资产名称、资产编码、数据项、数据量、更新频率、责任部门等; 2. 技术元数据:数据资产的技术属性,如字段名称、字段类型、字段长度、主键外键、索引等; 3. 业务元数据:刻画数据资产的业务属性,如业务口径、业务规则、使用部门、共享范围等; 4. 质量元数据:反映数据资产质量现状,如完整性、准确性、唯一性等数据质量评估指标值; 5. 安全元数据:确保数据资产安全可控,如敏感度标识、脱敏规则、访问权限、使用痕迹等; 6. 价值元数据:体现数据资产的应用价值,如资产等级、访问频次、使用评价、产生效益等。 建立全面系统的元数据框架,能够从不同视角对数据资产进行刻画,为数据资产全生命周期管理提供重要依据,是数据资产管理走向精细化、规范化的必由之路。 四、规范化编制数据资产台账 数据资产目录梳理完毕后,组织就可以规范化编制数据资产台账了。数据资产台账作为管理数据资产的电子"账本",直观记录了数据资产的家底情况,是开展数据资产管理的重要工具。 4.1 设计数据资产台账信息项 数据资产台账通过一系列结构化的信息项对数据资产进行描述管理。因此,台账信息项的设计直接关系到数据资产管理的广度和深度。一般来说,数据资产台账信息项的设计要全面覆盖数据资产管理模型的各项元数据,同时还要兼顾全组织的管理需求和未来发展需要。在实际设计过程中,组织一方面要全面梳理各业务部门和管理部门对数据资产管理的共性需求,争取将各方关注的重点内容纳入台账进行规范化管理;另一方面要高瞻远瞩,适度考虑支撑数据资产质量持续改进、价值深度利用、安全管控等未来发展需要。通过需求引导、头脑风暴、参考借鉴等方式,设计形成全面系统、满足多方需求的数据资产台账信息项。 4.2 规划数据资产台账结构 在明确数据资产台账信息项后,还需要进一步设计台账的整体结构。一般采用主档和副档相结合的方式:在主档中登记数据资产的基础信息,作为数据资产目录清单;在副档中分类登记数据资产的其他管理信息,包括技术信息、业务信息、质量信息、安全信息、价值信息等,与主档形成一对多的关系。主档可直接利用已形成的数据资产目录,而副档则须依据元数据的分类进行结构化设计,形成独立的关联表。通过主副档的有机结合,既可对数据资产进行分类分级管理,又能保证数据资产信息的集中统一、关联分析。 4.3 开展数据资产台账信息采集 高质量完整的信息是数据资产台账发挥效用的前提。各数据资产提供单位作为第一责任主体,要全面收集所辖数据资产的台账管理信息,并确保真实性、准确性、完整性。一方面,提供单位要组织开展数据普查,通过问卷调查、人工填报等方式,采集数据资产的业务属性、管理属性等人工可获取的信息;另一方面,要通过技术手段提取数据资产的技术元数据,运行数据质量分析工具评估数据资产质量现状,并适时开展数据资产价值评估。同时,提供单位还要建立台账信息定期更新机制,明确各项信息的更新周期、更新流程、责任人员,确保台账信息的持续准确、动态更新。 4.4建立数据资产台账编制规范 为保证数据资产台账编制过程规范有序,成果标准统一,组织要制定数据资产台账编制规范,明确编制的原则、流程、方法以及成果要求。编制规范一般包含以下主要内容:一是编制原则,如全面性、规范性、一致性、动态性等;二是编制主体,明确牵头部门、配合部门以及各自职责;三是编制流程,包括启动、采集、录入、审核、发布等环节的时间节点和交付成果;四是编制方法,对台账的填报、录入、校验方式进行详细说明;五是成果要求,规定台账的填报格式、命名规则、质量标准等。编制规范的建立,能够指导和规范数据资产台账的编制活动,为打造高质量的数据资产管理"台账"提供制度保障。 数据资产台账作为组织数据资产管理的核心工具,其编制是一项系统、持续的工作。组织需要以高度的责任心和耐心,一步一个脚印地开展,才能编制形成全面、准确、规范的数据资产台账。同时,台账的编制不是目的,而是实现高效管理、充分利用数据资产的手段。组织在台账编制过程中,还要重视对台账的应用实践,在实践中不断总结优化,持续提升数据资产管理的规范化、精细化水平。唯有如此,才能充分发挥数据资产的价值功效,为组织数字化转型升级提供坚实的数据底座。 来源(公众号): DATA数据社区
2025-01-16 11:08 7
指标平台掀起数智风暴:AI 对话已达 95% 准确率、100% 可解释! (本文:指标平台 = 元数据管理平台) 安全可靠:是智能数字决策的前提 01 | 应用痛点 元数据管理平台无法满足快速、智能查询需求 随着企业业务规模的迅速扩展和数字化进程的持续深化,越来越多的企业依赖大量精准的数据指标来进行精细化运营管理和辅助战略决策,凸显出构建完善元数据管理平台在企业内部的重要性。但在“元数据管理平台”应用过程中,因管理不统一、指标口径不一致、流程不规范,从而导致了重复建设、资源浪费、沟通成本增加,以及数据结果可信度下降等问题: 1. 指标重复建设与无效开发 指标开发重复:技术团队经常接到相似的指标开发需求,但缺乏统一的指标检索功能,难以快速判断是否已有类似指标,导致重复建设,浪费资源。 缺乏标准化定义:指标定义缺乏统一的标准,不同部门可能基于不同的业务逻辑开发类似指标,结果数据不一致,影响决策的准确性。 2. 业务人员对数据的理解与使用困难 指标选择困难:业务人员在查询指标时,面对数量众多的指标表和字段,不清楚应选择哪个指标,统计口径和适用场景也不明确,增加了使用数据的难度。 理解门槛高:元数据缺乏详细的业务解释或说明,导致非技术用户难以准确理解字段的意义和用途。 3. 元数据维护滞后导致查询错误 表结构变化未及时更新:当数据库的表结构发生变化(如字段新增、删除或调整),元数据没有及时同步更新,导致查询结果不准确,甚至出现错误。 版本混乱与重复沟通:由于元数据不及时更新,技术和业务团队需要反复沟通确认字段含义和统计规则,耗时耗力。 4. 元数据不准确、不一致问题 命名不一致:相同的业务含义在不同表中使用不同的字段名或表名,增加理解难度。 数据冲突:不同表中相同的字段名代表的含义或统计口径不同,数据结果可能存在冲突,用户无法判断取舍。 数据质量缺乏保障:部分元数据可能存在遗漏或记录错误,进一步影响数据使用的准确性。 5. 不同部门之间缺乏统一管理标准 分散管理:各部门独立管理元数据,导致平台缺乏全局视图,用户难以跨部门查询和理解元数据。 标准不统一:不同部门使用不同的元数据管理方式,导致命名规则、统计逻辑等出现分歧,影响跨部门协作效率。 6. 缺乏智能化与便捷性 低效查询:现有元数据管理平台无法支持自然语言查询,用户需要依赖复杂的SQL语句或繁琐的菜单搜索,降低查询效率。 缺少智能推荐:平台无法根据用户需求智能推荐相关指标或字段,用户需要手动筛选,耗费大量时间。 7. 无法支持复杂的血缘关系分析 血缘追踪难:复杂数据血缘关系(如ETL流程、表与表之间的依赖关系)缺乏直观可视化展示,用户难以快速了解数据来源和流转路径。 影响分析滞后:表结构或字段变动后,无法快速识别对下游系统和指标的影响,可能引发系统性错误。 8. 平台可扩展性和用户体验不足 功能单一:现有平台功能无法满足数据查询之外的需求,如数据质量监控、指标健康分析等。 交互体验差:平台界面复杂、搜索不便,用户体验差,进一步限制了元数据的使用频率和价值发挥。 这些痛点清晰地反映了元数据管理平台在实际应用中的不足,同时也为后续平台优化和智能化升级指明了方向。 02 | 方案一:元数据平台优化 如果问题更多在于数据治理、元数据管理策略不完善或平台本身的技术限制,可能需要优化现有元数据管理平台,而不是直接建立知识库。 在搭建知识库之前,您可以先评估以下方法: 优化元数据管理平台 增强搜索功能:加入全文搜索、模糊匹配和自动推荐功能。 可视化血缘分析:通过图表清晰展示表间关系和数据流向。 动态更新:对表的访问频率、调用次数等进行定期统计并展示。 数据治理体系完善 冗余表清理:识别并优化低使用率或重复的表。 建立数据分层:划分核心表、辅助表和历史表,减少查找范围。 开发数据搜索引擎 语义搜索:使用自然语言处理(NLP)技术,使用户可以以自然语言查询数据。 智能推荐:根据用户查询历史或业务场景,推荐相关数据表或字段。 03 | 方案二:元数据知识库和智能助手 构建一个元数据管理知识库和智能助手需要以下步骤: 1. 数据准备 元数据收集: 表结构信息:表名、字段名、数据类型、索引、主外键等。 数据血缘:表与表之间的关系,如ETL流程和依赖关系。 表使用统计:访问频率、最近更新时间等。 数据字典:字段含义、业务描述。 清洗与整合: 去重:合并冗余表或字段信息。 标准化:统一元数据格式和命名规则。 2. 技术架构 存储层:使用关系型数据库或NoSQL存储元数据,结合全文搜索引擎(如Elasticsearch)。 逻辑层:建立数据查询引擎,支持多种查询模式(如SQL查询、图数据库查询)。 应用层: 知识库前端界面:方便用户浏览和搜索元数据。 智能助手:通过NLP技术(如ChatGPT、Rasa)实现智能问答和推荐。 3. 功能设计 智能搜索:支持自然语言搜索和复杂查询。 血缘追踪:可视化展示数据血缘关系,支持逐级钻取。 智能推荐:基于用户行为和历史记录,推荐相关表或字段。 访问日志:记录用户查询和访问频率,优化知识库内容。 4. 技术实现 NLP技术: 构建语义搜索引擎,理解用户查询意图。 结合预训练语言模型(如BERT)进行分类和提取。 图数据库: 使用Neo4j或类似工具存储和查询复杂血缘关系。 API层: 提供标准化接口供其他系统调用。 5. 持续维护 定期更新元数据,保持与实际业务一致。 收集用户反馈,优化知识库功能。 来源(公众号): 源动数据-网点选址和效能管理
2025-01-15 16:48 28
随着大数据时代的来临,数据已成为企业的核心资产和竞争力的源泉。然而,海量、多源、异构数据的汇聚,也给数据管理带来诸多挑战:数据质量参差不齐、数据割裂缺乏统一视图、数据安全隐私面临威胁……在这一背景下,人工智能(AI)技术的崛起,为破解数据管理难题带来了新的曙光。AI以其高效、智能、自适应的特性,正在深刻重塑数据管理的方方面面,让数据资产焕发新的生机。 一、机器学习优化数据治理流程 数据治理是数据管理的顶层设计和统领全局的纲领,涵盖数据标准、质量、安全、生命周期管理等诸多维度。传统的数据治理多依赖人工制定规则、手动执行流程,难以适应数据规模激增、业务需求快速变化的大数据时代。机器学习以其自动化、自适应的学习能力,为数据治理注入新的动力,推动治理流程的优化重塑。 1. 异常检测与数据质量监控 数据质量是数据价值发挥的基石,粗糙的"原料"只能酿造劣质的"美酒"。传统的数据质量监控,多依赖人工设置阈值、编写规则,存在滞后性和主观性。基于机器学习的异常检测技术,能够从海量数据中自主学习"正常"的模式和边界,及时发现数据质量问题,大幅提升监控的实时性和全面性。 无监督学习算法如孤立森林isolation forest、Birch聚类等,能够从多维度挖掘数据间的内在关联,识别"离群点",实现无需预定义规则的异常检测。有监督学习算法如SVM、随机森林Random Forest等,能够从已标注的异常数据中总结规律,生成高准确率的异常分类模型,自动判别新来数据的健康状况。 此外,机器学习还能建立数据质量的台账和血缘,追溯异常数据的来源、影响范围,形成"监测-诊断-优化"的全流程质量管控。 2. 智能数据分类与数据溯源 海量的企业数据,往往散落在各个业务系统和部门中,缺乏统一的分类体系和管理视图。AI可以作为数据分类的利器,自动探查数据的特征和关系,生成多维度、细粒度的数据地图。 例如,无监督学习中的主题模型LDA,能从企业文档库中抽取潜在语义主题,发现内在关联的文档簇,形成自动文档分类。图神经网络等算法,能从复杂的数据关系网络中学习数据的表示向量,刻画数据间的相似性,实现数据的聚类。多视图学习能融合数据的结构化特征和非结构化语义,进行更全面、精准的分类。 当企业数据地图绘就,每一个数据都不再是信息孤岛,而是全局拼图中有机联系的一环。数据溯源也随之实现了自动化。机器学习能分析数据血缘和影响链路,当业务需求或数据结构发生变化,自动推演、定位下游的影响范围,及时调整数据流程与计算逻辑,大幅降低数据治理成本。 二、知识图谱构建与数据资产盘点 企业数据资产管理的目标,在于将数据转化为可持续创造价值的核心资产。要做到这一点,传统的面向过程的管理模式已然不敷使用,需要从"数据"跃迁到"知识"的层次,从全域视角理解数据的内涵价值、相互关联。知识图谱技术应运而生,它融合了机器学习、自然语言处理、语义网等多种AI技术,能够从结构化和非结构化数据中抽取实体、关系、属性,形成语义丰富的知识网络,既是知识提炼的"机器",也是数字资产盘点的"明镜"。 1. 自动化元数据提取 元数据是对数据的结构化描述,如数据的业务归属、访问权限、质量标准等,是数据管理的核心要素。传统的元数据管理高度依赖人工录入和维护,当数据规模庞大,难免疏漏。AI可实现元数据的自动化提取,将非结构化、半结构化的数据"翻译"成结构化的知识要素。 例如,命名实体识别技术能自动发现数据表、字段名称中蕴含的业务实体,如"CRM_Customer_Detail"中的"Customer"。自然语言处理技术能解析数据字典、业务文档,提炼数据资产的定义、业务规则等语义信息。本体学习等技术能从数据模式、约束中学习本体知识,构建数据血缘元数据。 从杂乱数据中"淘金",AI让数据的业务价值浮出水面,盘活沉睡的数字资产,形成企业统一的"知识地图",让管理者对数据资产的全貌了然于胸。 2. 数据血缘与影响分析 元数据提取呈现了数据的静态视图,而数据血缘则刻画了数据资产的动态生命周期。机器学习能够从ETL流程、数据库日志等数据中,自动抽取数据的上下游依赖关系,生成端到端的数据血缘图。 在此基础上,知识推理技术能够揭示数据变化的因果链条和影响范围。例如,当源系统数据模型调整时,知识图谱能推演出下游的数据应用、报表受到的级联影响,让数据治理做到"心中有数"。当业务需求变化,需要调整数据口径时,数据血缘图能快速定位上游"源头活水",指引数据优化,实现需求敏捷响应。 可以预见,AI驱动的自动化元数据管理和数据血缘分析,将成为未来数据治理的利器,实现数据资产全生命周期的"透明化"管理,让数据创造价值的路径更加清晰。 三、AI提升数据安全与隐私保护水平 随着数据资产的聚集,其安全性、合规性、私密性也日益成为企业的核心诉求。传统的数据安全防护,多依赖静态的访问控制规则和加密手段,在动态多变的安全威胁面前,显得被动和滞后。AI为数据安全智能赋能,通过云监测、行为建模、威胁情报等手段,构筑起更加主动、弹性、韧性的安全防护体系。 1. 数据脱敏与隐私保护 合规与隐私已成为数据价值开发的重要前提。当企业内外部数据需要交换共享时,如何在确保合规的前提下,最大化挖掘数据价值,成为亟需破题的难题。AI可为数据脱敏和隐私保护赋能,在源头实现数据的"净化"和"无害化"。 例如,机器学习能够自动发现和定位数据集中的敏感信息,如身份证号、手机号等,实现PII(个人隐私信息)的精准识别。进而,差分隐私、同态加密等隐私保护技术,能在保留数据统计特性的前提下,实现数据集的扰动和脱敏,即便是脱敏数据泄露,也难以追溯到个人。联邦学习更是允许在不泄露原始数据的前提下,实现多方数据的共享建模。 这些AI隐私保护技术,让数据交换不再是"鱼与熊掌不可兼得",而是在合规与价值之间实现平衡,为数据要素的自由流动扫清障碍。 2. AI驱动的数据访问控制 传统的数据访问控制,多依赖静态的"人-角色-权限"三元组,存在粒度粗、维护成本高等问题,难以适应数据资产管理的精细化、动态化需求。机器学习可为访问控制赋予更多动态智能因子,实现更精准、安全的权限管理。 其一,用户与实体行为分析(UEBA)技术,能从海量数据访问日志中学习用户的行为模式,构建行为基线和威胁情报,及时识别非法、越权的数据访问行为,让数据监管如"千里眼"般洞悉微末。 其二,图神经网络、关系嵌入等技术,能够从企业的组织架构、业务流程等复杂网络中,学习员工的角色特征,自动生成细粒度的数据访问策略。当组织架构、人员职责变化时,访问权限可自适应调整,大幅降低权限管理的时间成本。 此外,AI还能基于用户画像,实现数据访问的精细化定制。例如,对于数据分析人员,自动推荐相关数据表并开通访问权限;而对于业务人员,则推送数据看板和报告,避免误操作风险。 总之,AI让数据访问控制不再是"一刀切",而是因需而变、因人而异,在确保合规安全的同时,让数据价值有的放矢地流向需求点,实现数据价值最大化。四、自然语言处理简化数据访问 四、自然语言处理简化数据访问 在数据资产管理中,数据消费的难度也是一大痛点。传统的数据分析,需要用户具备一定的IT技能,如SQL、Python等。这不仅提高了数据应用的门槛,也制约了数据价值的释放。自然语言处理(NLP)技术的进步,为打通人与数据的鸿沟带来了新的可能,用户能够用自然语言直接"对话"数据,大幅降低数据获取和洞见萃取的难度。 1. 智能问答系统 智能问答是NLP最成熟的应用场景之一。用户以自然语言提问,系统通过语义理解和知识推理,自动生成答案。将智能问答技术引入数据分析,能让业务用户直接用口语化的问题获取数据洞见,大幅简化使用流程。 例如,用户问"我们的销量top10客户有哪些",问答系统能理解其语义为一个topN查询,生成对应的SQL,自动访问数据仓库并返回结果。当用户进一步追问"他们的订单金额同比增长如何"时,系统能在上下文中推断出"他们"指代上文提到的top10客户,关联相关数据表,计算出订单金额的时间序列,并以可视化图表形式返回。 在问答系统中,知识库是关键。它以知识图谱的形式,对数据仓库的表、字段、关系进行语义建模,构建数据资产的"百科全书"。机器学习、深度学习算法在知识库中寻找问题的答案线索,实现从自然语言到结构化查询(如SQL)的自动转译,让数据直接"开口说话"。 2. 语义搜索与数据推荐 当用户需求难以用一个问题直接表达,或尚不明确具体分析思路时,语义搜索和推荐可为其探索数据提供向导。用户以关键词形式表达大致诉求,系统自动理解搜索意图,找出语义相关的数据资产,形成个性化推荐。 例如,用户以"销售漏斗分析"为关键词搜索,系统能抓取查询的核心语义,在数据资产目录中发现"客户管理"、"营销活动"、"商机转化"等相关主题,自动生成数据集锦和分析报告模板,供用户参考启发。 在搜索与推荐引擎中,NLP技术贯穿始终。词汇-短语-句子嵌入(embedding)能够捕捉查询语义;文本相似度计算、主题聚类等算法能发现语义关联的数据表;协同过滤、强化学习等算法能基于用户的历史行为和关注点,生成个性化推荐。 可以说,NLP让数据资产管理从"千人一面"走向"千人千面",用户无需学习复杂的数据模型和检索语法,即可轻松游弋在数据的海洋中,找到"心仪"的数据资产,用最短的路径抵达洞见的彼岸。 结语 AI正在以"智能+"的形态,驱动数据管理走上智能化、自动化的崭新征程。智能数据治理让数据有迹可循、有源可溯;智能数据资产盘点让数据价值一览无余、跃然纸上;智能安全隐私保护让数据合规有度、流动有序;智能数据服务让萃取价值轻松惬意、洞见唾手可得。 放眼未来,AI与数据管理将加速融合、交叉创新,形成一个良性循环:AI从数据中汲取智慧,反哺数据管理流程;而经过AI淬炼的高质量数据资产,又为AI的进一步演进提供更优质的"燃料"。二者携手共进,定将开创数据价值最大化的新局面。 来源(公众号): DATA数据社区
2025-01-13 10:44 42
随着全球经济进入数字化时代,越来越多的企业意识到数字化转型的紧迫性。然而,数字化转型不仅仅是技术升级,更是企业战略、文化、组织结构和运营模式的全方位变革。尽管数字化转型已成为企业追求可持续发展的重要手段,但现实中,许多企业在推进数字化转型过程中面临诸多挑战,甚至陷入常见的误区。本文将总结数字化转型的三大真相,深入分析企业在转型过程中常遇到的难点和误区,并提出切实可行的建议,以帮助企业实现成功的数字化转型。 一、真相一,数字化转型不仅是技术问题,更是战略问题 挑战:数字化转型的本质是战略性变革 许多企业将数字化转型简单理解为技术升级或引入新的IT系统,但实际情况远不止如此。数字化转型的核心在于企业整体战略的转型,而不仅仅是技术的应用。企业在进行数字化转型时,需要从组织文化、业务流程、客户体验等多个层面进行深度变革,以适应数字经济的快速发展。 许多企业在数字化转型中,往往忽视了战略规划的重要性,片面追求技术先进性,导致最终数字化项目的失败。例如,某些企业购买了大量的先进技术设备或软件系统,但由于没有明确的数字化战略和业务目标,这些技术无法有效融入到企业运营中,甚至成为负担。 误区:认为技术投资等同于数字化转型 常见的误区之一是将技术投资视为数字化转型的全部。很多企业花费巨资引入最先进的技术,却忽视了业务流程的改造和组织文化的调整。事实上,技术只是数字化转型的一部分,企业需要结合自身的战略需求,制定清晰的数字化路线图,并将其融入到企业的长期发展规划中。 建议:制定清晰的数字化战略 为了避免技术与业务脱节的情况,企业在推动数字化转型时,首先需要制定明确的数字化战略。企业应通过深入分析市场环境、竞争态势、客户需求,结合自身的核心竞争力,设定具体的数字化目标。同时,企业应确保技术应用与业务流程变革同步进行,通过流程优化、数据驱动决策和跨部门协作,真正实现数字化转型的价值。 二、真相二,文化与人才是数字化转型的关键驱动因素 挑战:组织文化与员工技能的匹配 数字化转型不仅仅是引入新技术,更涉及组织文化的变革和人才结构的重塑。企业的数字化转型往往会面临来自内部组织文化的阻力,尤其是在传统企业中,员工可能对新技术感到不适应,或对改变现有的工作方式感到抵触。这种文化上的不适应会极大地阻碍数字化转型的顺利推进。 此外,数字化转型对员工技能的要求也提出了新的挑战。很多传统企业的员工缺乏数字化思维和技术操作能力,难以适应快速变化的数字化环境,进而导致数字化转型的效果不如预期。 误区:忽视了员工在数字化转型中的重要性 企业在推进数字化转型时,常常过分依赖外部技术供应商或咨询公司,忽视了内部员工的培养和组织文化的调整。事实上,员工是推动数字化转型的核心力量。如果企业忽视员工的角色,无法营造支持创新的组织文化,即使拥有先进的技术,也很难发挥出真正的效能。 建议:加强人才培养与文化变革 为了顺利推进数字化转型,企业需要加强对员工的培训,提升他们的数字化技能和技术操作能力。同时,企业应鼓励员工接受新的工作方式,营造创新、灵活和开放的组织文化。高层管理者还应通过积极的领导力,引导企业内部形成对数字化转型的共识和认同感,以确保组织上下在转型过程中保持一致性和协同性。 三、真相三,数据是数字化转型的核心资产,但其价值未被充分挖掘 挑战:数据资源的整合与应用难度大 在数字化转型过程中,数据被视为最重要的生产要素之一。企业通过收集、分析和应用海量数据,可以优化运营效率、提升客户体验并推动业务创新。然而,现实中,很多企业在数据资源的整合与应用方面存在较大的困难。一方面,企业的数据来源多样且分散,难以形成统一的数据库;另一方面,数据质量问题、隐私保护和安全风险等问题,也给数据的有效应用带来了挑战。 误区:低估了数据管理和分析的复杂性 很多企业在数字化转型中,对数据的重要性有一定的认识,但往往低估了数据管理和分析的复杂性。企业可能花费大量资源收集数据,却无法对其进行有效的管理和分析,导致数据价值难以充分发挥。此外,一些企业过于依赖历史数据,忽视了数据预测分析和实时决策的能力,导致决策滞后于市场变化。 建议:构建强大的数据治理体系 为了充分挖掘数据的价值,企业需要构建强大的数据治理体系,包括数据采集、存储、管理、分析和应用的全流程管理。首先,企业应统一数据标准,确保数据的准确性和一致性。其次,企业应加强对数据隐私和安全的保护,防止数据泄露和滥用。最后,企业应大力引入大数据分析工具和人工智能技术,通过数据驱动的决策,提升业务的敏捷性和创新能力。 来源(公众号):AI战略数字转型
2025-01-13 10:22 55
在数字化转型的时代背景下,数据治理已成为企业提升核心竞争力的关键。其中,数据标准化作为数据治理的重要组成部分,对确保数据质量、提升数据价值、保障数据安全具有不可替代的作用。本文将探讨数据标准化的构建策略与实施路径,为企业实现高效数据治理提供参考。 数据标准化的重要性 数据标准化是通过制定一套由管理制度、管控流程和技术工具共同组成的体系,来对数据定义、分类、格式、编码等进行标准化管理。对企业而言,数据标准化意味着对数据类型、长度、归属部门等定义一套统一的规范,以保障不同业务系统之间对同样的数据理解统一和使用统一。 数据标准化的重要性体现在以下几个方面: 消除数据不一致:通过统一的数据标准,可以消除数据存储结构、定义、理解以及来源的不一致性,从而实现企业级单一数据视图的形成,促进信息资源共享。 提升数据质量:数据标准可以作为新建系统的参考依据,减少数据转换,提高数据质量。同时,数据标准还可以支撑系统改造,促进系统集成。 提高工作效率:对业务人员而言,数据标准建设可提升业务规范性,保障人员对数据业务含义理解一致;对技术人员而言,数据标准可以提升系统实施工作效率,降低出错率。 支撑经营决策:数据标准建设可以提供更加完整、准确的数据,支撑经营决策和精细化管理。 数据标准化的构建策略 数据标准化的构建策略主要包括以下几个方面: 明确战略定位:将数据治理纳入整体战略规划中,明确数据治理在企业数字化转型中的核心地位,以及其对业务决策、产品创新、风险防控等方面的支撑作用。 设定具体目标:根据企业实际情况,设定清晰、可量化的数据治理目标,如提升数据质量、增强数据安全性、促进数据共享与利用等。 成立数据治理委员会:由高层管理者牵头,跨部门组建数据治理委员会,负责数据治理战略的制定、监督执行及效果评估。 制定数据政策:建立全面的数据政策体系,包括数据分类分级、数据访问控制、数据质量管理、数据安全保护等方面的政策。 在构建数据标准化的过程中,还需要特别注意以下几个方面: 参考国际和行业标准:在制定企业数据标准时,应首先收集现行的国家标准或行业标准,再根据企业需求确定数据标准的范围。 数据标准分类规划:数据标准可以从数据结构、数据内容来源、技术业务三个维度进行分类,如结构化数据标准、非结构化数据标准、基础类数据标准、派生类数据标准、业务数据标准和技术数据标准等。 定义数据标准体系框架和分类:在数据标准调研的基础上,结合行业最佳实践,定义企业自身的数据标准体系框架和分类。 数据标准化的实施路径 数据标准化的实施路径主要包括以下几个阶段: 数据标准设计制定:定义数据标准及相关规则,包括对数据标准的主题、信息大类、信息小类、信息项、数据类型、数据长度、数据定义、数据规则等进行规划设计。 评审与修订:在完成初步的数据标准定义后,征询数据管理部门、数据标准部门以及相关业务部门的意见,并进行意见分析和标准修订。 标准发布:最终发布数据标准,并在执行过程中加强对业务人员的数据标准培训、宣贯工作。 数据采集清洗:通过ETL工具将数据从来源端经过抽取、转换、加载至目的端,确保数据的准确性和完整性。 数据库设计与存储:基于业务理解,设计数据库表结构,并根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。 元数据管理:对基础库和主题库中的数据项属性进行管理,并将数据项的业务含义与数据项进行关联,便于业务人员理解数据库中的数据字段含义。 数据质量管理:建立数据质量管理和校验的流程,包括数据清洗、数据验证和异常处理等,确保数据的准确性和完整性。 数据安全管理:确定数据的安全要求和分类标准,如敏感度、保密性、可用性等,并建立数据的安全管理和保护的流程。 在数据标准执行过程中,还需要特别注意以下几个方面: 评估确定落地范围:选择某一要点作为数据标准落地的目标,如业务的维护流程、客户信息采集规范、某个系统的建设等。 制定落地方案:深入分析数据标准要求与现状的实际差异,以及落标的潜在影响和收益,并确定执行方案和计划。 推动方案执行:推动数据标准执行方案的实施和标准管控流程的执行。 跟踪评估成效:综合评价数据标准落地的实施成效,跟踪监督标准落地流程执行情况,收集标准修订需求。 数据标准化的持续优化 数据标准并非一成不变,而是会随着业务的发展变化以及数据标准执行效果而不断更新和完善。 在数据标准维护的初期,需要完成需求收集、需求评审、变更评审、发布等多项工作,并对所有的修订进行版本管理。 中期应完成数据标准日常维护工作与数据标准定期维护工作。 后期应重新制定数据标准在各业务部门、各系统的落地方案,并制定相应的落地计划。 来源(公众号):数据治理体系
2025-01-10 09:37 61
1.数据,是指任何以电子或其他方式对信息的记录。数据在不同视角下被称为原始数据、衍生数据、数据资源、数据产品和服务、数据资产、数据要素等。 2.原始数据,是指初次产生或源头收集的、未经加工处理的数据。 3.数据资源,是指具有价值创造潜力的数据的总称,通常指以电子化形式记录和保存、可机器读取、可供社会化再利用的数据集合。 4.数据要素,是指投入到生产经营活动、参与价值创造的数据资源。 5.数据产品和服务,是指基于数据加工形成的,可满足特定需求的数据加工品和数据服务。 6.数据资产,是指特定主体合法拥有或者控制的,能进行货币计量的,且能带来经济利益或社会效益的数据资源。 7.数据要素市场化配置,是指通过市场机制来配置数据这一新型生产要素,旨在建立一个更加开放、安全和高效的数据流通环境,不断释放数据要素价值。 8.数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等。 9.数据处理者,是指在数据处理活动中自主决定处理目的和处理方式的个人或者组织。 10.受托数据处理者,是指接受他人委托处理数据的个人或者组织。 11.数据流通,是指数据在不同主体之间流动的过程,包括数据开放、共享、交易、交换等。 12.数据交易,是指数据供方和需方之间进行的,以特定形态数据为标的,以货币或者其他等价物作为对价的交易行为。 13.数据治理,是指提升数据的质量、安全、合规性,推动数据有效利用的过程,包含组织数据治理、行业数据治理、社会数据治理等。 14.数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。 15.公共数据,是指各级党政机关、企事业单位依法履职或提供公共服务过程中产生的数据。 16.数字产业化,是指移动通信、人工智能等数字技术向数字产品、数字服务转化,数据向资源、要素转化,形成数字新产业、新业态、新模式的过程。 17.产业数字化,是指传统的农业、工业、服务业等产业通过应用数字技术、采集融合数据、挖掘数据资源价值,提升业务运行效率,降低生产经营成本,进而重构思维认知,整体性重塑组织管理模式,系统性变革生产运营流程,不断提升全要素生产率的过程。 18.数字经济高质量发展,是指围绕加快培育新质生产力,以数据要素市场化配置改革为主线,通过协同完善数据基础制度和数字基础设施、全面推进数字技术和实体经济深度融合、持续提升数字经济治理能力和国际合作水平,实现做强做优做大目标的数字经济发展新阶段。 19.数字消费,是指数字技术、应用支撑形成的消费活动和消费方式,既包括对数智化技术、产品和服务的消费,也包括消费内容、消费渠道、消费环境的数字化与智能化,还包括线上线下深度融合的消费新模式。 20.产业互联网,是指利用数字技术、数据要素推动全产业链数据融通,赋能产业数字化、网络化、智能化发展,推动业务流程、组织架构、生产方式等重组变革,实现产业链上下游协同转型、线上线下融合发展、全产业降本增效与高质量发展,进而形成新的产业协作、资源配置和价值创造体系。 21.城市全域数字化转型,是指城市以全面深化数据融通和开发利用为主线,综合利用数字技术和制度创新工具,实现技术架构重塑、城市管理流程变革和产城深度融合,促进数字化转型全领域增效、支撑能力全方位增强、转型生态全过程优化的城市高质量发展新模式。 22.“东数西算”工程,是把东部地区经济活动产生的数据和需求放到西部地区计算和处理,对数据中心在布局、网络、电力、能耗、算力、数据等方面进行统筹规划的重大工程,比如人工智能模型训练推理、机器学习等业务场景,可以通过“东数西算”的方式让东部业务向西部风光水电丰富的区域迁移,实现东西部协同发展。加快推动“东数西算”工程建设,将有效激发数据要素创新活力,加速数字产业化和产业数字化进程,催生新技术、新产业、新业态、新模式,支撑经济高质量发展。 23.高速数据网,是指面向数据流通利用场景,依托网络虚拟化、软件定义网络(SDN)等技术,提供弹性带宽、安全可靠、传输高效的数据传输服务。 24.全国一体化算力网,是指以信息网络技术为载体,促进全国范围内各类算力资源高比例、大规模一体化调度运营的数字基础设施。作为“东数西算”工程的2.0版本,具有集约化、一体化、协同化、价值化四个典型特征。 25.元数据,是定义和描述特定数据的数据,它提供了关于数据的结构、特征和关系的信息,有助于组织、查找、理解、管理数据。 26.结构化数据,是指一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的,并且可以使用关系模型予以有效描述。 27.半结构化数据,是指不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层的一种数据化结构形式。 28.非结构化数据,是指不具有预定义模型或未以预定义方式组织的数据。 29.数据分析,是指通过特定的技术和方法,对数据进行整理、研究、推理和概括总结,从数据中提取有用信息、发现规律、形成结论的过程。 30.数据挖掘,是数据分析的一种手段,是通过统计分析、机器学习、模式识别、专家系统等技术,挖掘出隐藏在数据中的信息或者价值的过程。 31.数据可视化,是指通过统计图表、图形、地图等图形化手段,将数据中包含的有用信息清晰有效地传达出来,以便于数据使用者更好地理解和分析数据。 32.数据仓库,是指在数据准备之后用于永久性存储数据的数据库。 33.数据湖,是指一种高度可扩展的数据存储架构,它专门用于存储大量原始数据和衍生数据,这些数据可以来自各种来源并以不同的格式存在,包括结构化、半结构化和非结构化数据。 34.湖仓一体,是指一种新型的开放式的存储架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析。 35.隐私保护计算,是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一类信息技术,保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。隐私保护计算的常用技术方案有安全多方计算、联邦学习、可信执行环境、密态计算等。常用的底层技术有混淆电路、不经意传输、秘密分享、同态加密等。 36.安全多方计算,是指在一个分布式网络中,多个参与实体各自持有秘密数据,各方希望以这些数据为输入共同完成对某函数的计算,而要求每个参与实体除计算结果、预期可公开的信息外均不能得到其他参与实体的任何输入信息。主要研究针对无可信第三方情况下,安全地进行多方协同的计算问题。 37.联邦学习,是指一种多个参与方在保证各自原始私有数据不出数据方定义的可信域的前提下,以保护隐私数据的方式交换中间计算结果,从而协作完成某项机器学习任务的模式。 38.可信执行环境,是指基于硬件级隔离及安全启动机制,为确保安全敏感应用相关数据和代码的机密性、完整性、真实性和不可否认性目标构建的一种软件运行环境。 39.密态计算,是指通过综合利用密码学、可信硬件和系统安全相关技术,实现计算过程数据可用不可见,计算结果能够保持密态化,以支持构建复杂组合计算,实现计算全链路保障,防止数据泄漏和滥用。 40.区块链,是分布式网络、加密技术、智能合约等多种技术集成的新型数据库软件,具有多中心化、共识可信、不可篡改、可追溯等特性,主要用于解决数据流通过程中的信任和安全问题。 来源:国家数据局
2025-01-09 17:35 37
2014年,大数据首次写入政府工作报告,大数据逐渐成为各级政府关注的热点;2019年10月,十九届四中全会首次将数据纳入生产要素范畴;2023年2月,中共中央、国务院印发的《数字中国建设整体布局规划》,将数据要素放到一个更为宏大的“数字中国”图景中;3月7日,十四届全国人大会议上,根据国务院关于提请审议国务院机构改革方案的议案,我国将组建国家数据局。随着国家政策的密集发布,数据作为关键生产要素的地位进一步明确。 数据成为数字经济的关键生产要素 数据并非从诞生起就是生产要素。近二十年来,人类采集数据、处理数据的能力有了质的跃升,经济活动数字化转型加快,数据才逐渐具备成为生产要素的性质,对提高生产效率的乘数作用凸现。激活数据要素的根本目的是以多样、创新的方式投入生产,为经济社会生产创造更大的价值。 数据要素究竟如何发挥其作为生产要素的价值,需要进一步分析厘清。随着信息技术的发展和产业应用的演化,数据要素投入生产的途径可分为三次价值释放过程,即数据支撑业务贯通、数据推动数智决策、数据流通对外赋能,如上图所示。需要注意的是,之所以说这三次价值是数据要素价值释放的三条途径,是因为一方面这三次价值之间存在一种递进关系,后者往往以前者为基础;另一方面,这三条途径存在一种并列关系,这些价值可以且有必要同时予以关注、同时充分释放。 一次价值:数据支撑业务贯通 数据投入生产的一次价值体现在支撑政府、企业等组织的业务系统运转,实现业务间的贯通。首先,数据经由各个业务系统的设计而产生,经过业务系统的规范,在特定范围内实现标准化的数据得以不断积累,逐渐汇聚成可利用的资源。其次,这些数据也支撑着业务系统的正常运转,通过计算机对数据的读写,实现业务初步的标准化、自动化管理和运营。最后,一定程度标准化的数据具备了通用性,数据得以贯通了线下与线上的界限,贯通业务流程间的界限,甚至有贯通组织内部业务领域间的界限的能力。总之,业务系统搭建起来、数据在系统中运转起来时,就已经在生产活动中释放出价值。 从投入生产的执行环节看,数据支撑业务贯通直观表现为提高劳动等生产要素的利用率。技术要素与之类似,通过将技术投入生产环节,实现业务流程中对部分劳动、岗位的替代,发挥其乘数作用。在这个意义上,就像将技术投入生产释放价值一样,发挥数据要素作用的首要工作是充分认识数据要素的作用,真正在业务中用到数据、贯通业务。 此时,数据以业务系统为单元集中产生、单一存储,相应的治理工作也以增、删、改、查、对齐、合并等常规的数据库管理为主,多集中于局部业务领域的流程改善和相关业务数据的贯通。虽然此阶段数据并未得到深度整合与分析,但无论是开发系统积累数据,还是操作数据规范业务流程,还是利用数据贯通业务,它们都是数据世界内的生产活动,创造出相应的价值。 因此,数据的一次价值是是实现数字化转型、提高组织内部经营管理效率的第一步。为推动数据的一次价值释放,政府、企业等组织的主要工作重心是业务数据化及各类业务信息系统建设。例如,二十年前,我国以“两网、一站、四库、十二金”工程为代表的电子政务建设全面开展,经过多年推进,各级政府业务信息系统建设和应用成效显著,通过业务数据化的方式实现了数据在系统中的有效运转和贯通,公共服务水平得到全面提升,为当今的数字政府建设奠定了基础。这一阶段,组织内部所持有的数据种类相对单一、计算的要求简单,技术门槛较低,关键是深入挖掘业务需求,明确业务数据化方向。当前仍有大量行业、大量企业未能有效实现数字化转型,“流程靠跑、查询靠问”的传统工作模式拖累了生产效率的提升。 总之,数据要素的一次价值如同寻找矿洞、积累矿藏,是数据要素流通的基础工作。在众多行业和企业尚不具备业务数据化能力的背景下,对这些行业和企业谈论数据要素市场还为时过早。更好发挥数据要素作用,需要帮助这些行业和企业释放数据要素的一次价值,用数据支撑起业务贯通。随着业务需求的挖掘和业务信息系统的建设,大量宝贵的业务数据不断积累,组织内业务系统数据独立存储、共享壁垒高筑的情形不再适应生产经营发展的需要,数据统一管理、贯通使用的场景不断涌现,为进一步挖掘数据的生产要素价值奠定了重要基础。 二次价值:数据推动智能决策 数据要素投入生产的二次价值释放体现在,通过数据的加工、分析、建模,可以揭示出更深层次的关系和规律,使生产、经营、服务、治理等环节的决策更智慧、更智能、更精准。一方面,通过对大量数据的管理和分析,组织内部的决策者可以实现“用数据说话、用数据决策”,运用数据呈现出的关键指标与信息评估发展态势,即时有效防范化解风险,创新行动方略;另一方面,数据分析也直接嵌入到系统中,与业务紧密融合,即时的数据挖掘、分类、预测、聚类等直接向业务赋予智能化的价值。 这两方面中,数据都是通过带来新信息、实现认知层面的升级来创造生产价值。从控制论的角度看,物质、能量和信息是构成世界的三大基石,信息不是物质也不是能量。如同土地要素是所有生产经营活动的物质基础,资本要素提高了物质交换的效率,劳动要素和技术要素促进了能量的转移与转换,数据要素可以支撑起对信息这一基石的创造与转换。与其他要素相比,对信息的把握与运用是数据要素价值释放的独特所在。数据要素的二次价值中,“决策”一词是广义的含义,既包括人的抉择与决策,又包括业界所说的机器“智能化决策”。 人和机器都可以根据各种信息、规律、规则做出选择,人可以用数据更好地认识形势和规律,人的能力难以认知到的业务规则可以交给机器认知。从根本上讲,数据二次价值释放是深层关系与规律的挖掘带来的认知突破,提供了独特的观察视角,由此构建出理解、预测乃至控制事物运行的新体系,从而摆脱了经验和人工的局限。 当前,一些头部制造业企业已建立起针对业务管理和经营决策的完整数据链,部分关键的经营管理决策动作可以被数据替代,从而实现通过业务智能化优化管理岗位用工结构;各大银行充分整合中小企业的经营数据,挖掘更准确的企业客户画像与信用评分,由此决定中小企业贷款风险评估结果,为中小企业低成本融资提供可能。 可以看到,数据要素不仅可以投入于自有业务支撑分析决策,还能够与其他生产要素的交融,形成新的要素组合和要素结构。数据驱动的智慧化、智能化决策通过与传统要素的业务化结合,可以实现更少的要素资源投入创造更多的物质财富和服务,从而优化传统生产要素的经营与配置,使传统要素价值倍增,提升全要素生产效率,实现生产率跃升、产业链优化和竞争力重塑。 总之,数据要素的二次价值具有其他生产要素不具备的独特性,是数据要素价值释放的核心所在。数据要素流通的重要目标也是回馈二次价值的释放,使数据在认知决策层的价值惠及广大主体,因此数据要素二次价值的基础也必须筑牢。为推动数据要素二次价值的释放,各组织需主动提升数据意识和数据挖掘能力,在数据分析、人工智能等技术的辅助下,构建数据自动化、智能化采集、处理、执行的新生产体系,消除人的认知误区和主观偏见,发挥数据要素在生产力竞争中的关键作用。 战略决策者可以结合对业务目标的深刻理解,利用大量数据挖掘呈现的结果做出更具智慧的决策,执行层可以充分利用数据分析结果,让人通过智能的关联、图谱等做出更有效的选择,让机器寻找关键的函数、标签、画像,实现自动化的预测、分析,使数据的二次价值回馈一次价值,业务运转变得更加智能。 三次价值:数据流通对外赋能 数据要素投入生产的三次价值释放让数据流通到更需要的地方,让不同来源的优质数据在新的业务需求和场景中汇聚融合,实现双赢、多赢的价值利用。流通赋能是数据要素价值飞跃的一个关键。一方面,数据具有规模报酬递增效应,越大规模、越多维度的数据融合汇聚创造的价值倍增,金融、物流、通信、汽车等等经济活动中的各类事项均可被多方来源的数据赋能,企业自有数据与外部数据的充分融合可以实现数据应用价值的最大化。因此,随着各组织对数据一次价值、二次价值的释放,各组织对于数据的渴求已经超越了自身产生的数据。 另一方面,现阶段大量数据集中于少数主体,数据要素分布不均、结构失衡的问题较为突出。数据具有的低成本复制性可以改变要素投入生产的结构,更大规模、更广范围的数据要素利用不会增加过多额外成本,但可以产生超额利润,带来社会福利增加。“数据二十条”强调促进全体人民共享数字经济发展红利,数据要素流通可以激发数据的正外部性,使数据价值惠及广大市场主体和全体人民。 历史经验表明,生产要素并不必然需要流通,但流通有助于进一步释放生产要素价值。农业领域,土地要素自古释放着生产粮食的价值。土地流转政策的改革与落地,让土地在供方和需方间有效流转,进一步促进了农民获得财产性增收,激活了农业剩余劳动力的转移。参考土地要素流转经验,结合数据要素自身属性,数据要素的三次价值释放需要各组织有效管理自有数据,提升高质量数据供给能力,挖掘外部数据引入需求。需求与供给间存在对立统一的关系,各组织及相关服务商需要关注多元化能力的提升。一次数据流通过程中,数据供给方和需求方虽然不是同一主体,但一个主体可以兼具数据供给者和需求者的身份,在不同业务场景中进行转换。 在追求利益的市场自发手段调节下,需求能够牵引供给,供给也能创造需求。供给方与需求方的数据框架在相互对齐的过程中,不断扩大相应的市场规模,增加新的经济增长点,从而实现在多元场景中持续释放数据要素的业务价值、经济价值和社会价值。 为实现数据供需双方高效规范匹配,数据要素市场培育逐渐成为行业关注焦点。市场的基本含义是各方在共识规约下自由参与交换的场所。数据要素市场就是以数据供方、需方为主体,以各种形态的数据为对象,以流通为手段,从而实现参与方各自诉求的场所,是一系列制度和技术支撑的复杂系统,数据供给、业务需求、流通模式、权利关系、价格机制、技术条件、配套设施等都是数据要素市场的构成要件。因此,数据要素市场的培育应在保障安全和隐私的前提下,本着自由流动、普惠发展的原则进行鼓励和规范,使各项工作有力支撑起数据要素价值的充分释放。 结论 推动数据要素发展,是对当今技术与产业背景的深刻把握,是抢抓数字经济时代国际竞争制高点的关键举措。发展数据要素应聚焦于数据要素价值的释放。数据要素三次价值释放规律突出了数据要素本身的作用机理,在一定程度上连接起政府、企业等组织的业务数据化、数据业务化、数据资产化具体操作与整体经济社会增长、全要素生产率提升。 关于数据要素及其价值释放的基本规律还需要持续深入挖掘和阐释,但数据要素的三次价值提示我们:数据要素发展是一项系统工程,既涉及组织内部的数据应用,又涉及全社会的普惠发展;既涉及数据资源的配置,又涉及数据对配置其他资源的作用。需要强调的是,我们今天说数据在流通中可以实现价值增值和飞跃,并不意味着我们已经完全进入第三次价值的阶段。 部分组织对数据应用的感知仍然模糊,又受限于资金、人才、技术水平不足,覆盖生产活动全流程、全产业链的数据链仍不完善,尚不具备业务数据电子化或分析决策智能化的能力。这种条件下,这类组织即使引入外部数据也无法有效利用,无法形成回馈业务发展的价值回路。因此,数据要素发展需要统筹推进,一次价值和二次价值仍需要持续释放,在更广泛实现业务贯通和数智决策的基础上,全面发挥数据流通对外赋能的价值。 来源(公众号):三界逆熵实验室
2025-01-08 18:18 50
数据是一个涉及技术、经济、法律、伦理、哲学的多学科命题,数据要素既作用于生产力,也作用于生产关系;既作用于看得见的物理世界,也作用于看不见的赛博空间;既作用于传统单一要素的价值倍增,也作用于整个生产要素的资源优化。任何对数据的本质追问和系统思考都需要勇气,它折射了一个学者对现实世界真实问题的敏感度和辨别力,也考验一个学者多学科领域研究的广度和深度,我对这个领域理论研究的开拓者表示无比的崇敬。 高富平教授就是数据问题理论研究的开拓者。高富平教授《数据经济讲义》一书,围绕数据相关的基本概念和基本问题,数据内涵、数据价值、数据经济、数据权属、数据市场、数据交易等基本命题,在理论上作了很多前沿创新探索,构建了一套自己的理论体系。认真研读后,引发了我对四个基础问题的思考。 01关于数据要素创造价值的本质 AI时代,数据驱动不仅降低了成本、提升了效率,也正在重构人类认识和改造世界的方法论。正如高富平教授在《数据经济讲义》中提出的洞见“数据革命本质上是人类社会的认知革命”。近几百年来,人类经历了几次认知范式的变革:从牛顿、爱因斯坦的“理论推理阶段”,到爱迪生在一百多年前发明电灯泡的“实验验证阶段”,再到20世纪80年代大飞机研发的“模拟择优阶段”,直至今天,以AI为代表的“大数据分析”形成了一种新的范式。 在新的认知范式下,当我们去追问数据到底是怎样创造价值的,或许我们可以先追问数字化的本质到底是什么?在我看来是两场革命:一个是工具革命,一个是决策革命。 什么叫工具革命呢?马克思曾说:“手推磨产生的是封建主的社会,蒸汽磨产生的是工业资本家的社会”,“各种经济时代的区别,不在于生产什么,而在于怎样生产,用什么劳动资料生产。”回到今天的数字时代和智能时代,我们看到:传统的机器人、机床、专业设备等传统工具正升级为3D打印、数控机床、自动吊装设备、自动分检系统等智能工具,传统能量转换工具正在向智能工具演变,大幅提高了体力劳动者效率;同时CAD、CAE、CAM等软件工具提高了脑力劳动者的效率。无论是体力劳动者,还是脑力劳动者,通过新的工具,提高了生产、研发效率。“工具革命”的核心价值在于帮助人们“正确地做事”。 什么叫决策革命呢?实践中仅“正确地做事”远远不够,更重要的是“做正确的事”。今天我们讨论数据,数据带来的是一场决策的革命——“决策革命”,帮助人们做正确的事。就像图灵奖和诺贝尔经济学奖获得者西蒙所说,管理的核心就是决策。从企业决策的角度,所谓的数字化,就是不断地把经理人对管理的、物流的、采购的、研发的规律,不断地模型化、算法化、代码化,用数据驱动构建一套新的决策体系。 正如《数据经济讲义》一书中所讲的,商业的本质体现为两种要素,即价值和效率。数据能够支持智能分析,挖掘新知,促进创新,支持经营者快速和精准知情,这是数据成为新的生产要素以及企业竞争来源的根本原因。这意味着我们应当按照经济学原理组织数据的生产、流通和使用(消费)活动,以实现数据资源社会化配置和利用。这正是本书所称的“数据经济”的核心要义。由于数据的价值在于认知,因而数据经济活动最终产出是知识或智慧行动。正因此,本书认为“数据经济的目的不是生产数据,而是生产智能产品”,并将数据经济视为“知识经济的高级进阶”。 当我们讲数据驱动决策的时候,面对一个复杂的业务场景,需要满足三个基本的核心要素: 第一,你的数据是不是实时在线的。 第二,你的数据是不是端到端的。 第三,你的数据是不是科学精准的。 只有基于这三个要素,才能真正地实现数据在正确的时间、以正确的方式、传递给正确的人和机器。 什么样的治理范式才能真正有助于实现数据在正确的时间、以正确的方式、传递给正确的人和机器?对于这一重要问题,高富平教授在《数据经济讲义》一书中,着重探寻了数据经济治理新范式,并认为数据源的开放性、数据使用价值的独特性等特征决定了我们难以清晰界定产权,无法援用传统的商品或资产市场交易模式,来实现数据资源的社会化配置。为此,高富平教授创造性地提出数据持有者权,并以持有者权利和义务配置为核心,构建了一整套数据流通机制,试图寻找替代产权交易数据经济秩序,被作者称为“治理范式经济秩序”。 02关于数据要素创造价值的模式 一直以来,数据要素创造价值并不是数据本身,数据只有与基于商业实践的算法、模型聚合在一起,才能真正地创造价值。在《数据经济讲义》中,高富平教授认为:“数据因使用而有价值,数据价值在于认知。数据不存在固有价值,而数据的价值在于使用数据,认知数据代表的客观世界(或对象)的规律。单纯数据或数据没有被使用,那么就不会产生洞察、预测或智慧行动,不会给企业带来任何效益”,并鲜明地提出要“避免直接将数据视为有价值资产或者单纯通过数据交易虚增GDP的现象”。从产业实践看,数据和算法、模型结合起来创造价值,主要有三种模式: 🔵 第一种模式:比特引导原子(价值倍增)。数据要素能够提高劳动、资本、技术等单一要素的生产效率,数据要素融入到劳动、资本、技术等每个单一要素,使得单一要素的价值产生倍增效应。 🔵 第二种模式:比特替代原子(投入替代)。数据可以激活其他要素,提高产品、商业模式的创新能力,以及个体及组织的创新活力。数据要素可以用更少的物质资源创造更多的物质财富和服务,会对传统的生产要素产生替代效应。例如移动支付会替代传统ATM机和金融机制的营业场所,波士顿咨询(BCG)估计过去10年由于互联网和移动支付的普及,中国至少减少了1万亿传统线下支付基础设施建设。 🔵 第三种模式:比特优化原子(资源优化)。数据要素不仅带来了劳动、资本、技术等单一要素的倍增效应,更重要的是提高了劳动、资本、技术、土地这些传统要素之间的资源配置效率。数据生产不了馒头,生产不了汽车,生产不了房子,但数据有助于低成本、高效率、高质量地生产馒头、汽车、房子,高效率地提供公共服务。数据要素推动传统生产要素革命性聚变与裂变,成为驱动经济持续增长的关键因素。这才是数据要素真正的价值所在。 高富平教授在《数据经济讲义》将数据经济视为“知识经济的高级进阶”,认为“数据经济是推动数字经济迭代升级的新生力量,其核心是在全社会层面高效地实现数据生产力。数据经济的目的不是生产数据,而生产智能产品”。从理论上看,只有回到生产力视角,才能更全面系统认识数据创造价值的内在机理和逻辑。 数据生产力的本质是人类重新构建一套认识和改造世界的方法论,基于“数据+算力+算法”,通过在比特的世界中构建物质世界的运行框架和体系,在比特的汪洋中重构原子的运行轨道,推动生产力的变革从局部走向全局、从初级走向高级、从单机走向系统。这一变革推动劳动者成为知识创造者,将能量转换工具升级为智能工具,将生产要素从自然资源拓展到数据要素,实现资源优化配置从单点到多点、从静态到动态、从低级到高级的跃升。总之,数据生产力正在重构整个经济运行的新体系,是经济增长的新动能,正在加速变革经济生产方式和模式。 03关于AI大模型与数据要素的关系 AI大模型开启了全新的智能时代,引发人机交互、计算范式和认知协作三场革命,正在加快形成新质生产力、增强发展新动能。高富平教授在《数据经济讲义》中不仅提出“数据革命本质上是人类社会的认知革命”,还进一步指出这改变了认知和改造世界的力量构成,过去只有人类智能这一单一力量,现在形成了两类智能相互作用的局面。 什么是认知协作革命?简单地说就是找到了从问题到答案的最短路径。具体而言,AI大模型的普及应用,传统的关键词检索将转变为自然语言人机交互新模式,这是对人类知识存储、检索和使用方式的一次重构。新的人机交互也将带来协作革命,人工智能大模型驱动的AI智能体会逐步深度嵌入各类组织的需求定义、应用开发、运维管理和资源调度等环节。 高富平教授在《数据经济讲义》中敏锐提出:“泛在网络形成大数据不仅增加对客观世界认知的深度、宽度和精度,而且各种智能系统可以挖掘数据背后规律、输出知识或智慧行动”。因此,相比传统的数字化,AI大模型引发的认知协作革命,也是对数据创造价值的一次路径升级。 从数据链路看,传统数字化的数据价值实现路径是“业务-采集-分析-决策”,而大模型时代,这一路径缩短为“输入-输出”;从执行效果看,传统数字化的数据流动路径,取决于业务和决策链条,流程型IT系统往往造成很多的数据孤岛,无法实现闭环,而大模型通过“理解-规划-执行-记忆”,能力更加全面、自成闭环;从建设成本看,传统数字化需要根据场景需求逐个定制化构建,治理周期长、成本高,而大模型时代通过“泛化能力+微调”,能够更低成本、更快速度建设数据利用能力;从业务价值看,传统数字化根据需求定制解决问题的路径和结果,价值往往比较有限,而大模型可以全面提升分析预测与决策能力,解决原有IT系统无法解决的问题,如供应链协同、ChatBI、知识库等,正在重新定义产业智能。 04关于如何促进数据要素流动 数据的价值在于流动。正如高富平教授所讲的,为了实现数据智能,不仅单个组织需要投入资源,治理数据,建设智能系统,更重要的是让每个企业或组织从外部获取足够多的数据,在满足各主体对高质量数据需求的同时,让散布于各角落的数据被高效地汇集利用,使数据的社会价值得到最大化利用。 关于数据流动的价值,我之前曾有一个观点:数字化转型的本质是什么?数字化转型的本质是,在数据+算法定义的世界中,以数据的自动流动化解复杂系统的不确定性,优化资源配置效率,构建企业新型竞争优势。数据的自动流动是指把正确的数据,在正确的时间,以正确的方式,传递给正确的人和机器。 数据的流动是一个技术问题、管理问题、经济问题,也是一个法律问题。法律问题不是我的专长,高富平作为国内知名法学家,针对数据流通过程的产权问题进行了开拓性的研究。作者创造性地提出数据持有者权并以持有者权利和义务配置为核心构建数据流通体制。在这样的设计中,持有者权只是合规管理数据资源,创制数据流通利用秩序的基础,而不是用来交易的权利;持有者只要配以流通权(提供他人使用)就足以开启数据流通,而使用者因为加工使用而成为新数据的持有者。这样,数据持有者仅凭自己合法地获取数据并创造或添附价值而享有权利,同时也能够保持数据不断地流通利用。 数据的世界纷繁复杂,如何穿越“数据认知迷雾”,需要更多高富平教授这样的探索者持续不懈的努力。 来源:中国信息化百人会执委安筱鹏博士
2025-01-07 18:36 57
国家发展改革委、国家数据局等六部门联合印发了数据领域标准体系《国家数据标准体系建设指南》(以下简称《指南》),《指南》的发布是贯彻落实党中央、国务院关于加快数字经济发展的重要战略决策之一。 习近平总书记提出:“构建以数据为关键要素的数字经济。”数据标准化工作在提升数据质量、促进数据流通、激活数据潜力等方面发挥着至关重要的作用。通过推动数据要素的市场化配置改革,数据标准体系建设成为构建数字经济发展新格局的重要支撑。这一举措符合党中央、国务院关于数字中国战略建设需求,也体现了推进数据资源管理体制机制创新的具体实践。 01 从三大规范领域构建数据标准体系总体架构的重要意义 数字经济的运行与规范,需要在理论和政策层面回答三个基本问题:哪些通用概念可用于理解和使用作为数字经济核心资产的数据要素?数据领域将会形成哪些核心资产以及如何以统一的标准和规范进行管理、开发、利用?如何保障以数据为核心资产的经济活动的安全性?《指南》对此进行了整体性规划和系统性引领,在遵循顶层设计、协同推进,问题导向、务实有效,应用牵引、鼓励创新,立足国内、开放合作的基本原则下,从三大规范领域提出构建数据标准体系总体架构。这三大规范领域分别为通用域、资产域和安全域。它们回应了数字经济发展的核心问题,即如何理解与使用数据要素、如何管理与利用数据资产、以及如何保障数据安全。 其中,通用域涵盖术语、参考架构、管理等基础标准,确保数据要素的基础概念和框架统一,为各领域的数据标准化奠定了统一的语言和操作框架。 资产域通过对数据基础设施、数据资源、数据技术和融合应用的规范,构建了数据作为核心资产的标准体系,明确了数据资源的开发、利用和流通的操作规范。 安全域围绕数据要素的全生命周期安全,制定了从数据采集、存储到流通的安全标准,保障了数据在流通过程中的安全性与合规性。通过这三大领域的系统设计,《指南》为数据的全生命周期管理提供了制度性支撑,为数字经济的健康发展奠定了坚实的基础。这不仅有利于推动数据要素的高效流转和应用,还能提升国家数据治理的能力,将为数字中国建设注入强劲动力。 02 从五大资产维度推进数据资源生态体系的重要意义 《指南》以数据“供得出、流得动、用得好、保安全”为指引,从数据基础设施、数据资源、数据技术、数据流通和融合应用共五个核心资产维度规划了数据标准建设的重点内容,计划到2026年底基本建成国家数据标准体系,拟制修订30项以上数据领域基础通用国家标准,形成一批标准应用示范案例,建成标准验证和应用服务平台等。通过对这五大核心资产维度的标准建设规划,《指南》将推动构建全面的数据资源生态体系,保障数据资源的开发、共享、流通与应用,促进数据资源在交叉行业领域的深度应用,助力实现数据资源社会效益的最优化。 在物化活动方面,《指南》规划了三类核心资产的标准蓝图,分别是数据基础设施、数据资源和数据技术。其中,数据基础设施标准包括存算设施(数据算力与存储设施)和网络设施(5G网络、光纤、卫星互联网)的传输标准。数据资源标准涵盖基础资源标准(元数据、主数据、数据目录、数据模型)以及数据开发、共享、授权运营的标准。数据技术包括数据汇聚、处理、流通、应用、运营和销毁等6个技术领域的标准。这对于激活数据要素潜能、促进数字技术迭代创新、提升数字经济发展水平具有重要的引领和规范作用。 在运转机制方面,《指南》规划了数据流通和融合应用两类核心资产的标准,规范数据的有效流动和跨行业应用。数据流通标准涵盖数据产品、数据确权、数据资源定价、数据流通交易等四个部分。该标准规范了数据产品的开发流程,数据产权的确认与管理方法,以及数据在交易环节中的操作规则与技术要求,确保数据流通的有序性和透明度。融合应用标准基于《“数据要素×”三年行动计划(2024—2026年)》的要求,涵盖工业制造、农业农村、商贸流通、交通运输、金融服务等12个重点领域,推动数据在各行业领域的深度融合与应用,确保数据资源在行业间的共享与协作。这将为推动数据要素高水平应用提供有力支撑,特别是在促进数据技术应用和规范数据资产管理方面,将为数字经济的持续发展提供强大的保障力和推动力。 03 标准化建设引领数据要素发展蓝图 《指南》是一个关于数字经济核心资产的标准、规范、规则、要求的编码体系,为未来的数据标准化建设提供了路线图,确保数据要素能够在各领域的高水平应用和持续演进。需要考虑从以下方面加强落实和建设。 (一)《指南》强调了重点领域的国家标准研制,特别是在数据基础设施、数据技术、数据流通等核心领域,要以急用先行为原则,应尽快研制国家通用数据标准,为国家重大战略发挥保驾护航作用。重点领域可以先行研制和在迭代过程中加以完善,确保标准建设与市场应用相结合、主体创新与标准先行相结合。推行重点领域标准建设的“引进来”和“走出去”,借鉴国际标准,对外推广国内标准,在动态调整中完善重点领域的数据标准。 (二)通过遴选标杆项目和企业,推动高水平的数据标准应用示范,形成可复制、可推广的应用案例,并进一步巩固数据标准的实际应用效果。围绕数据流通利用基础设施、训练数据集、公共数据授权运营、数据资源定价等重点方面,多批次、多领域遴选高水平应用示范案例。强调急需先用,遴选具有标杆作用的数据应用和优秀贯标企业,加大数据标准的宣贯和培训交流。 (三)培育第三方标准化服务机构,针对数据标准与安全要求的堵点,选择条件较好、治理规范的地区和行业,进行标准建设的试点验证,及时总结和应用拓展。培养从事数据标准建设的从业人员,提升职业素养和资质,培育一批具备数据管理能力评估、数据评价、数据服务能力评估、公共数据授权运营绩效评估等能力的第三方服务机构。 (四)聚焦数据流通和融合应用中的市场主体需求和市场运转机制,鼓励产学研协同合作,加强数据团体标准建设。这需要行业协会和产业协会联合高校、科研机构、重点企业,多方参与,协同发力,多批次出台各领域具有示范应用的团体标准和行业标准,对重点产品、重点应用及重点产业进行规范,形成12个重点行业的团体标准目录,在繁荣数据要素市场方面发挥保障作用。 (五)通过深度参与ISO、IEC等国际标准组织的工作,推动国内标准在国际市场中的应用和推广,确保中国在全球数据标准化领域的竞争力。紧密与国际标准组织的联系,坚持开放合作,在国际团体中担任职务和发挥作用。凭借专业实力和国际视野,深度参与和发起数据相关的国际标准项目。推动国内标准的境外应用,重视国内标准与国际标准的衔接,加强数据标准制定的国际合作,提高我国数据标准在全球范围内的有用性和贡献度。 来源:全国数标委
2025-01-06 16:15 72
热门文章