来源(公众号):大数据AI智能圈 在ChatGPT引发的AI革命浪潮中,数据中台正经历一场深刻的转型升级。从简单的数据管理平台到融合AI能力的智能中枢,数据中台正在重塑企业的数字化竞争力。据IDC最新数据显示,2024年中国数据中台市场规模将突破500亿元,年增长率超过35%。头部企业纷纷加码布局,阿里巴巴年投入超50亿升级数据中台,字节跳动的火山引擎服务已覆盖超10万家企业。 然而,真正的数据中台不是简单的技术堆叠,而是要实现数据、算法、业务的深度融合。本文将揭秘数据中台的最新发展趋势,深入解析头部企业的实践经验,为企业数智化转型提供切实可行的方法论。无论您是技术决策者还是数据从业者,都能从中获得有价值的启示。 大规模AI时代的数据中台服务升级版 数字化转型已成为企业生存发展的必由之路。随着ChatGPT掀起的AI狂潮,大模型技术正在各行各业掀起一场技术革命。面对海量数据和AI应用场景,传统的数据平台已经难以满足企业的需求。升级后的数据中台服务应运而生,它通过融合Data和AI能力,助力企业在数字化浪潮中抢占先机。 智能制造龙头企业海尔的数据中台升级之路就很有代表性。面对分散在全球的工厂数据和日益增长的AI应用需求,海尔打造了COSMOPlat工业互联网平台。该平台整合了1000多个数据源,支持每天百亿级的数据处理能力,通过AI赋能实现了生产效率提升30%,能源成本降低15%。 数据中台服务正在经历从"数据管理"向"数据智能"的转型。它不再仅仅是一个数据仓库,而是融合了数据治理、机器学习、知识图谱等多种能力的智能平台。美团外卖的智能调度就是一个典型案例。通过数据中台的AI能力,系统可以实时分析订单数据、天气数据、交通数据等多维度信息,智能预测订单量并优化配送路径,将平均配送时间缩短了3分钟。 现代数据中台服务主要包含六大核心能力: 数据采集服务负责数据的实时接入和离线导入。它就像城市的"输水管网",将分散的数据源源不断地汇聚到中台。京东的数据中台每天要处理超过100TB的交易数据、用户行为数据等,通过智能ETL工具实现了99.9%的数据准确率。 数据存储服务提供多样化的存储方案。从传统的关系型数据库到新型的图数据库,不同类型的数据都能找到最适合的"居所"。阿里巴巴的飞天平台支持EB级数据存储,为双11购物节提供强大的技术支撑。 数据计算服务则是数据中台的"大脑"。它通过分布式计算、流式计算等技术,对海量数据进行实时分析和深度学习。字节跳动的推荐系统每秒要处理数百万次请求,依靠强大的计算引擎才能实现毫秒级响应。 数据治理服务确保数据的质量和安全。通过元数据管理、数据标准化等手段,建立企业级的数据资产目录。微众银行通过区块链技术实现了数据共享和隐私保护的平衡,大大提升了金融数据的安全性。 数据服务层则是连接数据和应用的桥梁。它通过标准化的API接口和可视化工具,让数据价值清晰可见。腾讯云的数据服务平台支持每天数十亿次的API调用,为企业提供丰富的数据服务。 智能应用服务是数据中台的"智慧果实"。它将AI能力深度融入业务场景,实现智能推荐、智能决策等高级功能。网易云音乐就通过AI算法分析用户听歌习惯,每天为2亿用户推送个性化歌单。 数据中台迎来AI原生时代 随着大模型技术的突飞猛进,数据中台正在经历一场深刻的技术变革。智能化、实时化、云原生化成为新趋势,传统的数据架构正在向AI原生架构演进。 国内领先的电商平台拼多多就在这波技术变革中尝到了甜头。他们的数据中台通过引入深度学习模型,对用户行为数据进行实时分析,构建了动态定价系统。系统可以根据市场供需、竞品价格、用户画像等因素,在毫秒级完成价格决策,带来了15%的营收提升。数据中台的技术创新主要体现在三个层面: 首先是AI训练平台的升级。现代数据中台不再满足于提供原始数据,而是打造端到端的AI模型训练环境。华为云ModelArts平台支持一站式AI开发,从数据预处理到模型训练部署,全流程自动化,将AI模型的开发周期缩短了40%。特别是在大模型时代,数据中台需要提供高性能的分布式训练能力,支持数千卡级别的模型训练。 其次是特征工程的智能化。特征是AI模型的生命线,好的特征往往决定了模型的上限。滴滴的实时特征平台每天处理超过100亿条出行数据,通过自动化特征发现和筛选,显著提升了模型效果。平台还提供特征版本管理、特征市场等功能,让数据科学家能够复用高质量特征,避免重复工作。 再次是推理服务的实时化。传统的离线分析已经无法满足业务需求,实时智能决策成为标配。小红书的内容推荐系统要求10毫秒内完成推理请求,这就需要数据中台提供高性能的在线特征计算和模型服务能力。通过FPGA等硬件加速,推理延迟降低了60%。 技术创新带来了显著的商业价值。某大型零售集团通过升级数据中台,实现了全渠道数据的实时分析和智能决策: 库存智能预测准确率提升到95%,极大减少了断货和积压现象。系统通过分析历史销售数据、天气数据、节假日数据等多维度信息,对未来销量进行精准预测。会员流失预警准确率达到90%,为精准营销提供支撑。通过分析会员的消费行为、投诉记录、社交媒体互动等数据,及时发现流失风险,开展针对性的挽留活动。 促销活动ROI提升35%,实现精准营销。系统可以自动识别最具潜力的目标客群,并为不同客群生成个性化的促销方案,大幅提升营销效果。人工智能正在重塑数据中台的核心能力。未来的数据中台将更加智能、更加实时、更加开放:智能化升级是大势所趋。从数据采集、数据治理到数据服务,AI将在全流程发挥作用。像自动数据质量监控、智能元数据管理、自动化数据集成这样的功能将成为标配。 实时计算成为新常态。流批一体的架构将更加普及,支持毫秒级的数据处理和决策。数据中台需要在保证实时性的同时,平衡成本和复杂度。 开放共享日益重要。数据孤岛正在被打破,企业之间的数据协作将更加普遍。数据中台需要提供安全可控的数据共享机制,促进数据要素市场的发展。 数据中台建设实践与未来展望 数据中台不是一蹴而就的工程,需要循序渐进、持续优化。青岛啤酒的数据中台建设就经历了一个渐进式演进过程。从最初的数据集中管理,到引入AI能力,再到打造数据生态,每个阶段都有明确的目标和收益。 数据中台建设需要注意四个关键环节: 第一个环节是数据资产化。这是数据中台的基础工程。工商银行通过建立统一的数据标准和质量体系,实现了数据的可度量、可管理、可运营。他们开发了智能数据质量监控系统,覆盖9万多张表,数据质量达到99.9%。 第二个环节是能力平台化。数据中台不是简单的技术堆叠,而是要形成可复用的能力。字节跳动的火山引擎就是一个典型案例。他们将内部使用的数据和AI能力产品化,开放给外部企业使用,不仅创造了新的收入来源,还促进了技术的迭代优化。 第三个环节是服务化转型。数据中台要主动对接业务需求,提供场景化的解决方案。携程的智能客服平台通过整合订单数据、用户画像、知识图谱等能力,将客服问题的自动处理率提升到85%,极大提升了服务效率。 第四个环节是生态化发展。打通内外部数据壁垒,构建数据生态。蚂蚁集团的数据中台不仅服务于自身业务,还通过区块链技术实现了与金融机构的可信数据共享,助力普惠金融发展。 从建设经验来看,成功的数据中台项目都具备以下特点: 强调业务驱动。中台建设要从业务痛点出发,而不是一味追求技术先进性。某大型制造企业的数据中台就是从生产质量管控这个核心痛点切入,通过AI算法分析生产数据,将质量缺陷识别准确率提升到98%。 重视数据治理。数据质量是AI应用的生命线。华为在数据中台建设中投入了大量资源进行数据治理,建立了完整的数据管理体系,为后续的AI创新打下了坚实基础。 关注用户体验。数据中台要让使用者用得爽、用得好。美团的数据中台提供了丰富的可视化组件和低代码开发工具,显著降低了数据应用的开发门槛。 持续运营优化。数据中台是持续演进的过程,需要建立有效的运营机制。京东数科通过建立数据资产目录、举办数据创新大赛等方式,培养了良好的数据文化。展望未来,数据中台将迎来更大的发展机遇:大模型赋能。随着大模型技术的成熟,数据中台将获得更强大的认知能力。OpenAI最新发布的GPT-4已经展示了对结构化数据的出色理解能力,这将为数据分析带来革命性变化。边缘智能兴起。随着IoT设备的普及,边缘计算将成为数据中台的重要组成部分。华为预测,到2025年,全球将有75%的数据在边缘侧产生和处理。数据要素市场化。数据作为新型生产要素的地位日益凸显。工信部正在推动数据要素市场建设,这将为数据中台带来新的发展空间。 建设数据中台是一场持久战,需要企业在技术、组织、文化等多个维度持续发力。只有真正理解数据的价值,才能在数智化转型的浪潮中抢占先机。
2025-02-20 13:16 44
来源(公众号):大数据AI智能圈 深夜的银行数据中心,数据分析师小王揉了揉发酸的眼睛,72小时加班整理的客户数据清洗报告还在找bug。 隔壁工位基于DeepSeek系统的工作界面突然亮起,47分钟后,一份完整的数据清洗方案新鲜出炉,错误率还低了82%。这不是科幻电影场景,而是正在金融行业悄然上演的真实故事。 当人工智能开始读懂数据治理的门道,一场静悄悄的技术革命正在重塑商业世界的游戏规则。今天,让我们一起走进这个AI驱动的数据新世界。 数据治理遇上DeepSeek:AI引领的数据智能革命 某银行数据中心,凌晨3点。数据分析师小王正对着屏幕发愁,72小时加班整理的客户数据清洗报告还有漏洞。就在这时,他身边基于的DeepSeek系统亮起了绿灯—47分钟,一份完整的数据清洗方案新鲜出炉,错误率还低了82%。这不是科幻片场景,而是当下正在金融行业悄然发生的真实变革。 金融机构的反洗钱团队里,已经逐渐开始引入AI(DeepSeek)重写游戏规则。 面对每天2万条可疑交易预警,传统人工审核犹如大海捞针。DeepSeek分钟级完成了一场数据革命:系统自主分析8.6亿笔历史交易,识别出327个可疑特征,其中42个是人类从未发现的交易模式。 更令人惊叹的是,AI(DeepSeek)不是一个简单的规则执行者。它像一位经验丰富的数据侦探,能从看似普通的交易数据中,嗅出潜在风险。 一个典型案例:系统发现某批次凌晨3-5点的小额高频转账都来自新注册设备,立即提升了预警等级,最终协助银行提前23天发现了一起新型虚拟货币洗钱案件。 在零售行业,DeepSeek展现出更强大的商业智慧。某连锁超市引入DeepSeek后,不仅打通了86个业务系统的数据孤岛,更让促销决策有了"千里眼"。在春节前后,提前预测到某果礼盒的区域性需求激增,自动协调12个仓库完成调配,最终实现销售额同比增长275%。新技术带来新机遇,也催生新物种。传统数据分析师正在向"数据炼金师"进化,他们不再是简单的数据清洗工,而是数据价值的设计师。某银行设立的"AI训练师"岗位,晋升速度已经是传统岗位的3倍。 这场数据治理革命的本质,不是简单的效率提升,而是认知升级。AI(DeepSeek)正在改变数据治理的底层逻辑:从被动响应到主动预测,从规则驱动到智能认知,从单点治理到生态协同。 基本实现逻辑: DeepSeek API + RAG API + 数据(知识库)+ 需求Coding 智能数据治理的破局之道 制造业车间里,AI(DeepSeek)正在改写生产效能的新定义。 某工厂的设备数据原本就像散落的珍珠,虽然珍贵却难以串联。AI(DeepSeek)上线不久,自动发现的异常模式数量达到初期设定的13倍,设备效能提升40%。机器设备的"健康档案"不再是静态的数据表格,而成了智能预测的实时战报。 更令人瞩目的是政务领域的数字化蝶变。某市平台借助AI(DeepSeek),将56个部门的数据治理流程编织成一张智能服务网。群众办事从"跑断腿"到"一网通办",审批效率提升6倍。数据不再是冰冷的代码,而是温暖的服务触点。 券商交易室里,AI(DeepSeek)绘制的"市场异常波动关联图"成了风控会议的制胜法宝。快消品公司用它模拟不同营销方案,新品上市成功率从35%跃升至68%。城市交通管理部门基于它的实时数据分析,动态调整信号灯配时,早高峰拥堵指数下降27%。 这种智能化转型不是简单的工具替换,而是思维模式的进化。 某科技公司CDO说:"最理想的数据治理,是让用户感受不到治理的存在,却能享受到精准数据服务带来的无形之美。"在这场数字化浪潮中,AI(DeepSeek)正在重塑数据治理的未来图景:从被动防御到主动进化,从单点突破到全域赋能,从工具应用到决策伙伴。它不仅是数据治理的智能助手,更是数字时代的创新引擎。当AI开始深刻理解数据治理的精髓,人类的角色正在向更高维度跃迁。未来已来,拥抱变革者,方能御风而行。
2025-02-19 17:55 44
在数字化浪潮的推动下,数据已成为驱动经济社会发展的关键生产要素。然而,如何有效挖掘和利用数据的价值,将其转化为具有经济意义的资产,即数据资产化,是当前亟待解决的问题。本文将深入探讨数据资产化过程中的权属辨析、价值论证与成本归集等核心概念,并通过行业案例、数据实例及专家观点进行阐述,以期为读者提供一个清晰明了的理解框架。 一、数据资产权属辨析 1. 数据资产的定义与特征 数据资产,简而言之,是指企业拥有或控制的,能够为企业带来未来经济利益的,以物理或电子方式记录的数据资源。它具备权属明确、价值可计量、可交易等特征。然而,在数据资产化过程中,权属辨析是首要任务。 2. 数据资产权属的现状与挑战 当前,数据资产的权属问题复杂多变。数据从生产到流转的过程中,可产生衍生数据及衍生数据主体,导致数据资产主体具有多重性。此外,我国尚未出台全国性的数据确权立法,数据资产的确权标准和方法尚不统一。 3. 专家观点与行业实践 北京大学光华管理学院应用经济学系教授翁翕指出,数据资产化是一个多层面的概念,涉及将数据转化为具有经济价值的资产。在权属辨析方面,需要明确数据资源的持有权、加工使用权和产品经营权等分置的产权运行机制。例如,在兰州国际陆港数据资产化服务项目中,企业就围绕数据资产权属进行了深入辨析,为数据资产的后续管理和利用奠定了基础。 二、数据资产价值论证 1. 数据资产的价值来源 数据资产的价值主要来源于其对企业生产经营活动的支持和优化。通过数据分析,企业可以洞察市场趋势、优化产品设计、提升运营效率等,从而实现经济效益的提升。 2. 数据资产价值评估方法 目前,数据资产的价值评估方法主要包括成本法、收益法和市场法。成本法通过计算数据生产活动中的各种成本总和来评估数据资产的价值;收益法则是基于数据资产预期产生的未来收益进行评估;市场法则是参照市场中的数据资产报价,并根据行业特性进行具体分析。 3. 行业案例与数据实例 以金融行业为例,银行通过收集和分析客户的交易数据、信用数据等,可以构建精准的风险评估模型,提高信贷审批的效率和准确性,从而创造经济价值。同时,随着生成式人工智能技术的发展,数据资产在AIGC领域的价值也日益凸显。 三、数据资产成本归集 1. 成本归集的定义与意义 成本归集是指将企业在数据资产化过程中产生的各种成本进行记录和分配的过程。通过成本归集,企业可以清晰地了解数据资产化的成本构成,为后续的计量、列报与披露工作奠定基础。 2. 成本归集的范围与方法 数据资产的成本归集范围广泛,包括数据采集成本、数据处理成本、数据存储成本、技术支持与人员成本等。归集方法则根据成本性质的不同而有所差异,如直接成本可以直接记录到对应的数据资产上,而间接成本则需要通过合理的分摊依据进行分配。 3. 行业实践与优化建议 在兰州国际陆港数据资产化服务项目中,企业就围绕数据资产的成本归集进行了深入探索和实践。通过明确归集对象、收集成本数据、选择合适的分摊依据等步骤,企业成功地完成了数据资产的成本归集工作。同时,专家建议,在成本归集过程中应充分考虑数据资产的无形性与特殊性,合理确定成本归集范围与方法,并持续关注市场与技术发展动态,适时调整成本归集策略。 四、总结与展望 数据资产化是数字化转型的必然趋势。通过权属辨析、价值论证与成本归集等核心环节的实施,企业可以有效地挖掘和利用数据的价值,实现经济效益的提升。未来,随着技术的不断进步和政策的逐步完善,数据资产化将迎来更加广阔的发展前景。企业应积极拥抱数据资产化浪潮,加强数据管理和利用能力,为企业的可持续发展注入强劲动力。 来源(公众号):AI战略数字转型
2025-02-18 13:33 59
文 | 清华大学大数据系统软件国家工程研究中心主任、中国工程院院士 孙家广 清华大学软件学院院长、大数据系统软件国家工程研究中心执行主任 王建民 清华大学大数据系统软件国家工程研究中心总工程师、全国数标委WG2数据治理工作组组长 王晨 《关于完善数据流通安全治理 更好促进数据要素市场化价值化的实施方案》(以下简称《方案》)进一步完善了我国数据流通安全治理基础制度,对于促进数据要素高效流通、数据要素价值充分释放具有重要的意义。 01《方案》对完善数据流通安全治理体系意义重大 (一)贯彻党的二十届三中全会精神,落实“数据二十条”的重要举措 党的二十届三中全会提出,“建设和运营国家数据基础设施,促进数据共享。加快建立数据产权归属认定、市场交易、权益分配、利益保护制度,提升数据安全治理监管能力”。《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出,从数据产权、流通交易、收益分配、安全治理四个方面着力构建数据基础制度体系,提出建立安全可控、弹性包容的数据要素治理制度,明确政府在数据安全监督管理方面的关键作用,要求政府创新数据治理机制,压实企业的数据治理责任,充分发挥社会力量多方参与的协同治理作用。《方案》有效回应了数据流通中规则不清晰、安全责任界定难、数据流通安全成本高等痛点问题,对数据供给、流通、使用全过程中的数据安全治理做出了基础制度安排,符合党中央提出的国家数据基础设施建设战略要求,是贯彻党中央重要指示精神的具体体现。 (二)顺应经济社会高质量发展的必然要求 随着数字中国建设的加速推进,我国数字经济迈向了全面扩展期,数据成为了新的关键生产要素。数据高效流通可以有效促进信息资源共享,提高生产效率,优化资源配置,激发创新活力。数据流通在带来巨大的经济利益的同时也伴随着诸多安全风险。数据泄露、非法使用、恶意攻击等安全事件频发,不仅损害了个人隐私和企业利益,还可能会对国家安全造成危害。《方案》提出了数据流通安全治理的体系性框架,将安全贯穿数据供给、流通、使用全过程,完善了数据流通安全治理机制,推动数据高质量发展和高水平安全良性互动,加速数据要素的高质量开发利用,是顺应经济社会高质量发展的必然要求。 (三)统筹发展和安全为数据高效流通提供了坚实制度保障 数据作为数字经济时代的关键生产要素,其安全性和可靠性将直接影响到数据价值的释放,只有确保数据的安全性和完整性,才能充分发挥数据要素在经济增长和社会治理中的作用。数据安全是数据要素价值的重要保障,一旦数据泄露或被滥用,将严重损害数据所有者利益甚至威胁社会稳定,加强数据安全保护是充分释放数据要素价值的关键环节。《方案》完善了数据流通安全治理相关制度,明确了数据流通规则,强化了数据流通安全技术应用,丰富了数据流通安全服务供给,使数据要素的发展和数据安全相互促进、相互依存,不仅通过数据要素的发展保障数据安全,更通过数据安全技术的进步有力支持数据要素的高效利用。 02《方案》指明了数据流通安全治理的实现路径 (一)《方案》对数据流通“事前”的安全治理制度进行了设计 万事开头,制度先行。《方案》从制度层面对数据流通安全治理进行了详细准备。对企业开展数据流通需要依据的法规体系、应当履行的报告制度、必须接受的监督义务等提出了要求,鼓励企业对数据进行脱敏处理,并根据分类分级的结果开展数据流通交易。明确了公共数据流通过程中的数据提供方、数据接收方和授权运营机构的权责体系。明确个人数据流通需要取得个人同意或经过匿名化处理。从企业数据、公共数据、个人数据等入手,明晰企业数据流通的规范性和合规性、公共数据的责任界定、个人数据的流通安全保障。针对企业数据流通规则不清晰的问题,《方案》加快企业数据流通相关规则的制定和落实,明确数据流通交易的合规要求和监管职责,以及重要数据通过脱敏处理后可以进入流通的原则导向;针对公共数据流通各相关主体的安全责任不明晰的问题,《方案》明晰各相关主体的责任,强化各相关主体的安全防护要求;针对个人数据相关条款对匿名化的标准笼统,缺乏可操作性的问题,《方案》促进技术手段下的应用方法和效果评估等标准的建设。 (二)《方案》对数据流通“事中”的安全支撑进行了安排 针对数据流通过程中,担心数据价值泄露,数据权益受到损害的问题,《方案》从技术支撑入手,加强数据流通安全相关的技术创新,对于不涉及风险问题的一般数据,鼓励自行采取必要的安全措施进行数据流通;对于未认定为重要数据,但企业认为涉及重要经营信息的,鼓励数据提供方、数据接收方接入数据流通利用基础设施;对于重要数据,鼓励通过“原始数据不出域、数据可用不可见、数据可控可计量”等方式,依法依规实现数据价值开发。特别是对于中小企业,《方案》通过丰富数据流通安全服务供给,探索市场化机制解决路径,以扩大供给、支持安全服务企业向规模化、专业化、一体化方向发展等方式降低安全服务产品价格,丰富数据托管等服务供给、研究探索为数据安全提供保险保障的可行方案等方式为中小企业提供安全服务,促进数据产业和安全服务业繁荣发展。 (三)《方案》对数据流通“事后”的安全保障进行了规划 数据具有可复制、易传输、难追溯等特点,一旦数据泄露,整个链条上的所有主体均可能需要“自证清白”。《方案》支持融合应用数据水印、数据指纹、区块链等技术手段,实现数据流通过程中的取证和追责。针对数据滥用问题,强化对数据使用方的恶意行为管理,加大对侵犯个人隐私,利用数据开展垄断、不正当竞争等违法违规行为的打击力度,加强对重大风险的监测预警,持续增强风险分析、监控和处置的能力,防范数据安全风险。 03《方案》将推动我国数据流通安全治理再上新台阶 随着《网络安全法》《数据安全法》《个人信息保护法》等一系列法律法规的出台,我国已经初步形成了较为完整的数据安全法律法规体系。这些法律法规不仅强调了数据安全的重要性,还明确了数据分类分级保护制度、网络数据处理者的主体责任、个人信息保护的具体规则等,为数据安全治理提供了坚实的法律基础。2024年9月,国务院公布《网络数据安全管理条例》,从行政法规层级补充了现有立法框架,构建了“法律-行政法规-部门规章”的全位阶法律规范体系。 2023年10月国家数据局成立,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等。日前,国家数据局会同有关部门适时出台《方案》,提出数据流通安全治理的体系框架,进一步细化落实数据流通的安全治理机制和规则,完善数据流通安全责任界定,实现促进数据要素高效流通、数据要素价值快速释放的目标,必将推动我国的数据流通安全治理再上新台阶,为促进数据要素高效流通奠定坚实基础,为繁荣数据市场、释放数据价值提供坚强保障。 来源(公众号):北京数据
2025-02-17 13:33 59
在当今信息化社会,数据已成为新的生产要素,其价值日益凸显。为了高效、安全地利用数据资源,业界不断探索和创新,催生了多种新型的数据流通和利用模式。其中,数场、可信数据空间、数联网、数据元件、区块链与隐私保护计算等概念正引领着数据流通和利用的新趋势。本文将详细解读这些概念,并探讨其现状及未来趋势。 一、数场 数场(Data Field)是依托开放性网络及算力和隐私保护计算、区块链等各类关联功能设施,面向数据要素提供线上线下资源登记、供需匹配、交易流通、开发利用、存证溯源等功能的一种综合性数据流通利用设施。 现状:数场可以应用于多个领域,如政务、金融、医疗、教育等。通过数场,不同主体可以便捷地获取所需数据资源,实现数据的共享和利用。例如,在政务领域,政府可以通过数场实现政务数据的开放和共享,提高政府服务效率和透明度。 未来趋势:随着数据要素市场的不断发展和完善,数场将扮演更加重要的角色。未来,数场将更加注重数据的标准化、安全性和隐私保护,为数据的高效流通和利用提供更加坚实的保障。 二、可信数据空间 可信数据空间(Trusted Data Spaces)是一类全新的数据流通利用基础设施,同时也是一个生态系统的概念。它以数据使用控制为核心,通过连接器等技术载体,实现数据的可信交付,保障数据流通中的“可用不可见”“可控可计量”目标。 现状:可信数据空间的应用场景广泛,包括企业、行业、城市、个人及跨境等类型。例如,国家数据局发布的《可信数据空间发展行动计划(2024—2028年)》提出,要培育推广不同层次的可信数据空间建设。温州已成功获批数据空间等6个国家数据基础设施建设试点,通过隐私计算、AI模型、云网融合等技术手段,为数据安全、合规、有序流通利用提供新的方案。 未来趋势:随着技术的不断进步和应用场景的不断拓展,可信数据空间将成为数据要素市场的重要载体。未来,可信数据空间将更加注重数据的互联互通和共享利用,推动数据要素市场的繁荣和发展。 三、数联网 数联网关注的重点在于数据如何定位、如何流通。它基于互联网发明人、图灵奖获得者罗伯特·卡恩博士发明的数字对象架构(DOA),实现数据的唯一标识、元数据管理和数字对象仓库等功能。 现状:数联网的概念和技术体系正在不断完善和成熟。目前,数联网已经在数字图书馆等领域取得了全球性的规模化应用,为数据的共享和利用提供了有力的支持。 未来趋势:随着数据要素市场的不断发展和完善,数联网将成为连接不同数据空间和数据要素的重要桥梁。未来,数联网将更加注重数据的标准化、安全性和隐私保护,为数据的高效流通和利用提供更加便捷和可靠的途径。 四、数据元件 数据元件(Data Component)是通过对数据脱敏处理后,根据需要由若干相关字段形成的数据集或由数据的关联字段通过建模形成的数据特征。 现状:数据元件的概念由中国电子陆志鹏提出,已经成为数据要素市场流通交易的新形态。通过数据元件,不同领域的数据可以实现标准化和规模化加工,提高数据的利用效率和价值。 未来趋势:随着数据要素市场的不断发展和完善,数据元件将成为数据要素市场的重要组成部分。未来,数据元件将更加注重数据的标准化、安全性和隐私保护,为数据的高效流通和利用提供更加可靠的支持。 五、区块链 区块链(Blockchain)作为一种去中心化的数据记录技术,具有高度的安全性和透明性。它通过分布式账本技术,实现数据的不可篡改和可追溯。 现状:区块链技术已经在金融、供应链、医疗、能源、公共管理等多个领域得到了广泛应用。例如,在供应链管理中,区块链可以用来记录和追踪货物的生产、运输和销售过程。 未来趋势:随着技术的不断进步和应用场景的不断拓展,区块链将成为数据要素市场的重要支撑技术。未来,区块链将更加注重与其他技术的融合和创新,为数据的高效流通和利用提供更加安全、可靠和便捷的支持。 六、隐私保护计算 隐私保护计算是面向隐私信息全生命周期保护的计算理论和方法,涵盖信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作。 现状:隐私保护计算技术已经在金融、医疗、教育等多个领域得到了广泛应用。例如,在医疗领域,隐私保护计算技术可以用于安全存储病人数据,确保数据隐私和安全。 未来趋势:随着数据要素市场的不断发展和完善,隐私保护计算将成为数据要素市场的重要保障技术。未来,隐私保护计算将更加注重技术的创新和应用场景的拓展,为数据的高效流通和利用提供更加全面的隐私保护支持。综上所述,数场、可信数据空间、数联网、数据元件、区块链与隐私保护计算等概念正引领着数据流通和利用的新趋势。随着技术的不断进步和应用场景的不断拓展,这些概念和技术将为数据要素市场的繁荣和发展提供更加坚实的支撑和推动力量。 来源(公众号):AI战略数字转型
2025-02-14 10:27 61
文 | 中国电子技术标准化研究院党委书记 刘贤刚 近日国家发展改革委、国家数据局等部门联合印发《关于完善数据流通安全治理 更好促进数据要素市场化价值化的实施方案》(以下简称《方案》),为充分释放数据价值提供了重要制度保障。 01 深刻领会《方案》对更好发挥数据要素作用的重要意义 党中央、国务院高度重视发挥数据要素价值。习近平总书记多次强调,要发挥数据的基础资源作用和创新引擎作用,加快形成以创新为主要引领和支撑的数字经济。 (一)《方案》是落实党中央重要决策部署的关键举措 党的二十届三中全会提出“加快建立数据产权归属认定、市场交易、权益分配、利益保护制度,提升数据安全治理监管能力,建立高效便利安全的数据跨境流动机制”等保障数据要素安全流通的重点任务。《方案》明确提出全面贯彻总体国家安全观,统筹数据发展和安全,坚持系统思维、底线思维,将安全贯穿数据供给、流通、使用全过程,为数据流通安全治理提供了工作原则和目标。 (二)《方案》是应对数据流通利用风险的迫切需求 以数据为关键要素的数字经济具有高创新性、广覆盖性、强渗透性,数据大规模流通过程就是多源、多方数据融合过程,一旦被泄露或滥用,可能带来个人隐私、商业秘密等数据泄露问题,甚至可能对国家安全带来挑战。《方案》就如何以成本最小化实现安全最优化,提出了落实国家数据分类分级保护制度、数据流通中的安全治理规则、加强数据流通安全技术应用和产业培育、完善权益保护和责任界定机制等具体举措。 (三)《方案》是促进数据高效流通利用的重要保障 数据相比传统生产要素,流动起来更为便捷,跨地域、跨国界流动的特点也更加明显;但由于其数据的易复制性、易获取性,在数据流通方面,“不敢”“不愿”“不会”的问题比较突出,数据要素价值未得到充分释放。数据安全可信流通才能实现数据高效利用,《方案》为数据“供得出、流得动、用得好”探索提出了安全制度方案,对数据资源安全开发利用具有里程碑意义。 02《方案》对数据流通安全治理提出了明确的工作任务 数据流通安全治理规则是数据基础制度的重要内容。《方案》以“到2027年底,规则明晰、产业繁荣、多方协同的数据流通安全治理体系基本构建,数据合规高效流通机制更加完善,治理效能显著提升”为目标,提出了责任义务、安全要求等体系化任务部署。 (一)以数据分类分级为前提,让安全的数据流通 数据分类分级是推进数据管理,开展数据流通利用的前提和基础,目的是实现分类管理、分级保护、突出重点、保住重点。《方案》提出经脱敏等技术处理为一般数据的,可按照一般数据开展流通交易;对于不涉及风险问题的一般数据,鼓励自行采取必要安全措施进行流通利用。目的在于解决一般数据不敢流通的问题,充分释放相对安全的一般数据流通活力。 (二)以数据安全能力为基础,让数据安全的流通 安全的数据基础设施、清晰的界定权责是让数据安全动起来的关键。《方案》提出了支持数据流通安全技术创新、数据供需双方接入使用数据流通利用基础设施、加强关联风险识别管控等具体要求,明确了数据提供方、数据接收方、数据授权运营机构的责任义务。为解决数据流通环节多、场景多、主体多带来的数据泄露、权责不清等问题,提供了制度和技术方案,构建了安全可靠、监管有效的数据流通信任基础。 (三)以个人数据流通保障为重点,让个人数据发挥更大价值 个人数据是我国海量数据规模中的重要组成部分,在数据要素市场中有着不可替代的作用。《方案》立足于个人数据流通场景存在的授权同意难、个人信息泄露等突出问题,提出了研制个人信息匿名化标准、采用国家网络身份认证公共服务、健全个人信息保护投诉、举报、受理、处置渠道等举措,在个人数据安全流通的过程中,将个人数据权益实现好、维护好、发展好。 (四)以自由贸易试验区为试点,对新型治理模式先行先试 自由贸易试验区承担着国家战略性的创新试点任务,北京、天津、上海、广东等地自由贸易试验区,在数据分类分级、数据出境管理清单等数据制度进行落地探索。《方案》提出围绕数据流通交易溯源机制、重点场景安全治理标准、重点场景安全责任界定机制等,支持在自由贸易试验区(港)等地方开展先行先试,探索新型治理模式,提高治理效能。 03 充分发挥好数据标准对《方案》落地实施的支撑作用 《方案》多处对数据标准提出了具体要求和明确任务,在《方案》落地过程中,进一步发挥好数据标准的规范性和引领性作用,做好数据标准体系研究、重点标准研制、标准应用实施等工作。 (一)做好数据标准体系建设 《方案》提出“完善数据流通安全标准”。前不久,《国家数据标准体系建设指南》正式印发,提出了数据标准体系建设及落实落地的目标要求,同时设置“安全保障”专章,对数据基础设施安全、数据要素市场安全、数据流通安全等流通安全治理方面提出了明确标准任务。需要不断深化重点方向标准化研究,不断细化完善数据标准体系框架,为数据高效安全流通利用筑牢标准根基。 (二)加快重点急需标准研制 《方案》提出“制定个人信息匿名化相关标准规范,明确匿名化操作规范、技术指标和流通环境要求”“重点场景安全治理标准”。标准研制应坚持问题导向、急用先行,紧扣国家关于数据要素流通等重大战略部署,围绕《方案》要求,抓紧研制个人信息匿名化、数据交易服务安全、数据流通安全能力等重点标准,提升数据标准对数据安全治理监管能力建设的支撑保障作用。 (三)深入开展标准应用实施 《方案》提出数据分类分级和重要数据识别、提升企业数据安全治理能力、重点行业领域数据安全风险监测等重点任务,这些任务落地都需要标准提供技术支撑。继续深入推进《数据安全技术 数据分类分级规则》《信息安全技术 数据安全能力成熟度模型》《数据安全技术 数据安全风险评估方法》等标准的应用实施,强化各方的数据安全标准化意识,提升组织安全能力,推广优秀标准实践案例,为业界提供标准实现参考。 来源(公众号):北京数据
2025-02-13 10:00 71
文 | 中国政法大学副校长、教授,数据法治实验室主任 时建中 数据流通安全治理规则是数据基础制度的重要内容,是实现高质量数据更大范围、更高效率、更加有序流通的前提,是充分释放数据价值的制度条件,是推动建设高水平数据市场的保障。国家数据局会同有关部门制定发布的《关于完善数据流通安全治理 更好促进数据要素市场化价值化的实施方案》(以下简称《方案》)全面贯彻总体国家安全观,统筹发展和安全,对于建立健全数据流通安全治理机制、提升数据安全治理能力、促进数据要素合规高效流通利用具有重要意义。《方案》坚持系统思维、底线思维,凸显了战略思维、法治思维,立足“安全”、落脚“发展”,明确了七项主要任务,以成本最小化实现安全最优化,推动数据高质量发展和高水平安全良性互动,加速构建繁荣且有序的数据市场,为充分释放数据价值、不断做强做优做大我国数字经济、构筑国家竞争新优势提供坚实支撑。 01 明晰数据流通安全规则,营造有序数据流通环境 规则是秩序的基石。《方案》将明晰数据流通安全规则标准、压实数据流通安全责任、强化数据流通权益保障作为重点任务,通过建设安全可信的制度环境助力营造稳定有序的数据流通环境。在规则设计的部署上,《方案》始终坚持以数据分类分级保护为基本原则,以数据安全标准体系建设为重点,细化了《数据安全法》第17条、第21条等有关规定,夯实了《方案》的法治基础。 其一,《方案》以数据分类分级保护原则为抓手,探索不同类型、不同风险等级数据流通规则的差异化设计方案,聚焦不同的数据安全保障重点,落实数据流通安全保障措施,压实数据流通安全责任。针对企业数据,《方案》明晰了重要数据与一般数据的差异化处理规则。构建了数据处理者依规识别、申报、采取必要安全措施保护重要数据的制度;针对政务数据,《方案》区分了数据提供方和数据接收方的数据流通安全管理责任原则,明确了公共数据授权运营机构的安全管理责任;针对个人数据,《方案》细化了《个人信息保护法》中“知情同意”相关规则及“匿名化处理”有关规定。同时,《方案》提出以国家网络身份认证公共服务等多种方式,以制度创新强化个人数据流通保障。 其二,《方案》强化了数据流通安全相关的标准建设,例如,制定或完善个人信息匿名化相关标准规范、数据流通安全标准、重点场景安全治理标准,健全数据流通安全治理机制,规范和促进数据流通。在贯彻落实《方案》、推动数据安全标准体系建设过程中,需要把握好“三组”关系:一是国家标准、地方标准和团体标准的关系;二是强制性标准和推荐性标准的关系;三是通用标准和特定应用场景标准的关系。强化数据安全标准底层互通性,切实发挥好数据标准的引领性作用,提高数据安全治理效能。 02 创新数据流通安全技术,提升数据安全治理效率 数智技术既是法治的对象,也是赋能法治的工具。《数据安全法》第16条规定国家支持数据开发利用和数据安全技术研究,数据安全技术与数据开发利用密不可分。《方案》将加强数据流通安全技术应用、支持数据流通安全技术创新作为重点任务、重要环节,本身就是一种创新。信息是数据的内容,数据是信息的载体。只有同步推进数据内容安全保护技术和数据载体安全保护技术的开发应用,方能有效且全面地支撑数据安全治理,促进数据流通发展。 在数据内容安全保护技术方面,《方案》不仅强调了数据脱敏、匿名化、数字水印等常见技术手段在保护国家安全、个人隐私和公共安全上的重要作用,而且提出了要融合运用数据指纹、区块链等新型技术手段,以实现数据流转过程留痕、数据交易全程追溯,高效支撑数据流通中的取证和定责,提升数据安全治理效能。 在数据载体安全保护技术方面,应以推动顶得上、稳得住的数据基础设施建设为重点。数据基础设施既是保障数据安全的能力底座,又是支撑构建全国一体化数据市场的重要载体。《方案》落实党的二十届三中全会所提出的“建设和运营国家数据基础设施,促进数据共享”的要求,对于数据流通利用基础设施的接入和使用,按照数据分类分级保护的原则,依法作出了制度安排。尤为值得肯定的是,《方案》提出“对于未认定为重要数据,但企业认为涉及重要经营信息的,鼓励数据提供方、数据接收方接入和使用数据流通利用基础设施,促进数据安全流动。”数据接入是任何形式数据处理和使用的前提,保障数据接入安全是数据流通利用基础设施的重要功能。在数据基础设施建设与应用过程中,应坚持最大幅度降低接入成本、提供接入的技术便利、公平对待所有接入企业等原则,保障数据安全,促进数据开发利用。 03 打造数据流通安全服务,强化市场主体交易信心 我国数据产存转化率低,数据产得出却难流动,看起来海量用起来不多,关键原因在于过高数据流通风险成本与较低数据流通收益之间的矛盾,导致市场主体对数据流通交易普遍缺乏信任、且信心不足。针对数据流通的现状,只有降本增信,才能提质增效。在总体要求中,《方案》提出“以成本最小化实现安全最优化”是化解数据流通堵点的正确之道。在主要任务中,《方案》提出“丰富数据流通安全服务供给”,贯彻“以服代管”的思想理念,对保障数据流通全过程全环节的安全具有重要意义,标志着我国在数据流通安全治理理念和思路转型上迈出了重要一步。具体而言,《方案》一方面积极健全数据流通安全服务内容、充实服务供给,以培育健全数据流通安全检测评估、安全审计等服务,提升数据流通过程中的主体信任;以丰富数据托管等服务供给,研究探索为数据安全提供保险保障的可行方案,加强数据流通过程中的风险应对信心。《方案》另一方面鼓励支持数据流通安全服务创新、繁荣服务市场,通过强化数据安全服务的基础理论研究和核心技术攻关,加速数据安全服务发展专业化、规模化和一体化,实现服务增量,提升服务效能。值得强调的是,在数据流通安全服务多态性发展和规模性扩增的过程中,仍需以市场现实需求为导向、生产应用场景为牵引,更好地发挥市场作用,不可忽视数据安全服务有效竞争在促进数据安全服务高质量创新方面的重要功能。 04 加强数据流通安全执法,维护数据市场运行秩序 数据流通安全执法对保障数据流通过程安全、维护数据市场运行秩序具有显著功能。其一,通过严厉打击数据违法使用行为,防范化解数据流通安全风险;其二,维护数据流通各方主体权益,优化数据市场运行环境;其三,执法是最好的普法,通过发挥典型执法的示范效应,培育数据安全流通的市场文化。加强数据流通安全执法效能关键在于执法能力建设。 《方案》中明确指出要研究完善数据流通安全事故或纠纷处置机制,提升流通风险应对能力。在理解把握和贯彻落实时,首先,应当建立对执法本身的监督机制,避免机械执法、选择性执法、运动式执法等;其次,应当加强执法机构间的协同机制,明确权责清单、推动执法信息共享、强化跨行业领域执法合作等;最后,应当完善执法透明度机制,合理披露执法过程信息、适时开展执法情况通报等。数据流通安全执法应始终秉承为民执法、依法执法、规范执法,在法治轨道上推进数据流通和数据市场建设。 安全是发展的前提,发展是安全的保障。以高水平的数据安全体系建设,保障数据依法有序自由流通,充分发挥我国海量数据规模和丰富应用场景优势,实现数据高质量发展和高水平安全良性互动、相得益彰,才能持续繁荣数据市场,为培育发展新质生产力注入强劲动能。 来源(公众号):北京数据
2025-02-12 15:36 70
什么是数据指标体系? 数据是对事物结果的归纳,指标是衡量目标的方法。组合一下,数据指标就是可以对结果进行归纳的一种目标衡量方式。说人话就是可以将某个事物结果量化,形成数值化的度量方式,用来衡量目标。数据指标就是一种定量思维方式的体现,他至少有两个作用: 1、想不出来数据指标,说明是对这块事(团队要做的事)没有一个清晰的认知 2、 想得清楚数据指标,却做不出来,说明对整个团队缺少掌控,不能推动落地 不能建立数据指标,根本没法做数据驱动,所以数据指标其实是想真实反应我们的团队是什么状态,我们做的事是什么状态的一个指向标。究其原因,组织执行力、产品健康度需要某种程度的量化,数据指标的作用从更宏观的角度看是这样的: 其中牵引指标就对应我们的业务数据指标,牵引指标不健康的时候可以预警是不是团队方向跟目标走偏了,leader要考虑调整目标还是修正团队方向。 结合数据分析来说,数据指标就是将复杂、抽象的业务拆分组合,并找到可以直观明确的衡量这些组合的度量方式,并可用数字来量化。同时他们是相互独立的,可以穷尽的。 但要完整的衡量一个事务或者业务,一个数据指标往往是不够的。如同描述一个人,仅仅描述身高,体重等等单一维度不能反应一个人的全貌一样,单一的某个数据指标是不能反应整体情况的,这时候需要建立指标体系——一系列有逻辑关系的数据指标,通过多维度的数据指标来评估业务状况。 对于一般互联网行业或者产品来说,数据指标体系是用来系统的揭示业务水平状况和用户行为的主要方式。 为什么要建立指标体系? 数据指标本质是用数据说话,对业务进行精准的号脉。 1. 统一衡量业务好坏的标准 传统企业或者小企业可能不会有数据指标体系的概念,也不会下大工夫来建设数据指标体系,但却并不能完全脱离,或多或少都会涉及数据指标,只是不够全面、不能统一、不成体系。 一般衡量业务好坏主要看财务指标,例如收入、毛利率、净利率等。对于一些创新类、探索类的业务可能会关注用户量、GMV、转化率等。不管业务处在什么阶段,我们都需要一些数据指标能够对其进行衡量。 没有指标对业务进行系统衡量,我们就无法把控业务发展,无法对业务质量进行衡量,无法看清楚业务发展是否到达阶段性目标。而且某些复杂的业务,单一数据指标衡量很可能片面化,需要搭建系统的指标体系,才能全面衡量业务发展情况,促进业务有序增长。 当组织有全面、统一数据指标体系时,可以统一度量衡,减少转化、翻译(口径解释)等工作,降低组织内的沟通成本。 2. 指导产品的研发和运营工作 产品的研发和运营其实很依赖数据支持,数据指标不仅仅能帮助大家看到业务发展的结果,还能帮助大家看清产品研发和运营的过程,能够及时调整策略,更万无一失的达到目标。 对于互联网公司,产品的研发和运营等部门是促进公司发展的核心组织,通过完善的数据指标体系和数据分析,来有效聚焦工作目标、指导成员工作。同时对指标体系内的各层级指标间建立起清晰的关系,还能从指标体系出发,明确工作重点。最终做到以数据驱动,找到不足,提升业绩。 3. 帮助建设数据分析体系 数据指标体系是数据分析体系的第一步,数据分析本质就是根据数据指标的变化寻找业务问题、预测业务结果,数据分析工作在数据指标体系的指引下才有意义。 完善的数据指标体系业务可以让数据的采集更有目的性,避免分析时的指标数据遗漏或缺失。虽然有些数据分析软件可以对数据缺失值进行处理,但如果连指标都没有,这种缺失肯定是软件无法处理的。尤其是关键指标的缺失,将会造成分析结果的可信度下降。 数据分析体系的最终目的是帮助组织在内部建设一套可运行的信息反馈机制,能够持续的发现问题、预警风险,帮助决策者能够做到“谋定而后动,知止而有得。 举个例子,我们衡量一个公众号前期的运营情况,可以用一个核心指标——昨日新增用户数。 如果昨天新增用户数是1000,这个猛然一看感觉这个公众号运营的还不错。但是再加个前日新增用户数这个指标呢,如果前日新增用数是2000呢,那么新增用户数直接是下降了50%了。我们加了一个比较的指标,让我们对这个业务的发展认识就完全不一样了。如果我们加入更多的指标,比如阅读量、打开率等等,还会有更多的认识。上面我们不断增加指标的过程,也就是在梳理业务指标体系的过程,一个数据指标是没有办法衡量业务的发展,但是一个指标体系就能把问题说的清晰明白。 一个好的指标体系对于组织而言,可以是一把统一沟通语言的尺子,可以是一台统一方向的司南,可以是一个持续发现问题、预警风险的智库 什么阶段建设? 数据指标体系的建设是和业务的发展相辅相成的,当数据指标体系比较完善时,我们的业务应该也是比较成熟了。 如果业务才刚刚开始,我们就要建成完善的数据指标体系是很难的,而且是不切实际的。就算勉强有,这样的数据指标体系也是无根止水,因为业务是不断变化的,运营方式也会不断调整,大部分的数据指标都需要从业务结果和业务运营过程中去提炼总结。 只有当业务比较成熟时,运营方式比较稳定时,我们的数据指标体系才能初见成效,才能有效的运转起来。 但并不是我们在业务不成熟时,就不应该投入,除了一些可能贯穿这个业务阶段的数据指标外,我们在业务的各个不同阶段应该去发掘提炼每个阶段应该关注的数据指标,不断的迭代,随着业务变化而变化。 比如收入、利润率等财务类的指标应该是业务整个发展阶段都应该关注的,除此之外,在业务发展前期我们可能更会关注新增用户量、转化率、拉新成本等指标,而在业务发展后期,我们可能更加关注活跃率、留存率、运营效率等指标。 数据指标体系不是一日建成的罗马,需要持续不断的投入,在业务发展的不同阶段有不同的小目标,当业务稳定时,这些小目标就汇聚成了最终的大目标。所以我们应该在业务一开始的阶段就要投入,不仅是为业务阶段性的目标提供帮助,也是为最终的数据指标体系添砖加瓦。 资源需求 数据指标体系看似是个很专业的事情,需要很专业的人来干,其实不完全对。 数据指标体系的建设确实需要一些专业的数据人员,需要依赖一些工具,但这并不是最重要的。就像上面说的,数据指标的目的是为了衡量业务好坏、帮助业务发展,因此数据指标建设最重要的是要对业务足够熟悉,能够深入业务,对业务的认识和了解甚至要超过业务负责人。这样看来似乎是老板或者业务负责人应该是数据指标建设的第一负责人,确实如此...在实际的操作中,数据指标体系一般也都是在老板和业务负责人的要求下去建设的,也只有拿到老板或者业务负责人的授权才好推动下去。 因为数据指标体系的建设涉及产品研发、运营、销售,甚至财务、人力等方方面面,需要很强的协调能力。 因此数据指标体系建设的负责人最好是资深的数据分析人员、产品经理或者运营人员,最好是一直跟随业务发展的同学,这样能极大的减少熟悉业务的成本。另外最好与老板或者业务负责人有比较好的关系,有稳定的沟通汇报渠道,因为他们才是数据指标体系的最大受益人。这样既能随时沟通,保证信息和认知一致,同时也能给自己提升影响力,更方便的协调各方资源。其他人力投入还需要一些数据产品经理(也可以是数据分析师)和数据开发同学,他们主要负责执行工作。数据产品经理或者数据分析师需要定义数据指标的概念、口径等,并整理成册,方便各方查阅,统一认知,在后期还要进行数据指标可视化呈现和分析。 数据开发同学需要根据数据指标口径清洗数据,建立好数据模型,方便数据分析同学取用。当然数据的清洗可能还需要研发、IT、运营、销售、财务、人力的各方配合,因为指标需要的数据不仅来源于业务系统,还可能来源于销售系统、财务系统和人力系统等各个地方。除了人力投入以外,可能还需要一些数据开发工具和数据分析工具。这些工具可以自建也可以采购,自建的话投入更多的人力即可,但一般中小企业或团队采购的方式可能更划算。总的说来,要建设一个完善的可投入实际运用的数据指标体系,投入应该是很大的。 组织架构适配 如上所说,数据指标体系只是整个数据分析体系建设的第一步,数据指标体系之后还有很多数据分析的工作,这才是利用数据指标体系产生更有价值的阶段。 所以我们的组织架构并不仅仅只为数据指标体系的建设去设立,可能需要为整个公司或团队对数据的收集、运用去设立。 根据之前数据中台的建设经验,这个团队需要具有跨业务部门共享公共数据的能力,能够承担数据中台建设职责,这里面就包含了建设数据指标体系的能力。 为了能够公正公平衡量各个业务好坏,它必须是一个且独立于业务团队的部门,这个团队的负责人应该直接向老板或相关高管汇报。 为了避免与业务脱节,对这个团队的组织定位是懂业务,能够深入业务,扎根业务。在个团队内部,可以由三个小团队构成: 数据分析团队,这是数据指标建设的核心团队,负责数据指标体系的规划,指标口径的定义和维护,分析报告产出等; 数据平台团队,负责构建支撑数据指标体系的平台,包括指标系统、元数据中心、数据地图等; 数据开发团队,负责清洗数据和数据建模,维护公共数据层,呈现各个数据指标结果,以及满足各个数据指标定制需求。 适合的团队构成和组织定位是建设数据指标体系的必备工作,最好是独立的部门,同时要避免与业务脱节,能够深入业务,要与业务目标绑定。路径是什么? 路径是什么? 数据指标体系建设的第一个难题就是指标管理的混乱,例如下面这些: 1、相同指标名称,口径不一; 2、相同口径,指标名称不一样; 3、指标口径描述不清晰; 4、指标命名难于理解; 5、指标定义和计算逻辑不清晰; 上面这些问题在没有专门的团队来负责数据指标体系这事之前也许可以原谅,但有了专门团队之后,就不应该出现。 所以数据指标体系建设的第一步就是建立好指标管理规范,根据业务需要迭代和更新指标内容,最好是建立一个指标管理系统,能够更加方便的更新和维护我们的指标内容。指标管理也有些技巧可循,例如: 可面向主题域管理,拆分原子指标和派生指标,制定指标命名规范,将指标进行分级管理等。 对于指标分级管理,我们一般将指标分为四级。 第一级是北极星指标,他是公司最重要且唯一的指标,当其他指标与它冲突时,以它为准; 第二级是公司级指标,是公司关注的重要指标,可以有多个; 第三级是部门或者产品线指标,一般是部门或者产品线关注的指标; 第四级一般是业务过程指标,反应的是业务运营过程需要关注的指标。 所谓数据指标体系,肯定是能够用数据衡量的指标才有意义,所以建设数据指标体系的第二步就是需要为给每个数据指标建立数据模型,提供数据支撑。 建立数据模型的关键是数据的收集和清洗,这十分依赖每个公司的信息化建设完善度,对于一般的运营数据还好,数仓团队就可以处理好。 如果涉及销售系统、财务系统、人力系统的数据就会比较麻烦,特别是采购的各个不同的厂商的系统,需要大量的成本来打通各个系统,否则需要大人力来提取和拆分各项数据,这个工作量就极大,而且容易出错、效率低下,最头痛的还是相关的人力协调。 不考虑数据的收集和清洗的话,数据模型建设其实是考验的我们数仓设计能力和模型开发能力,当然现在市面也有一些现成的工具和平台,不需要很强的技术能力就可以搞定。 但是也有一些点需要我们注意,例如尽量避免分散、烟囱式的数仓模型,最好建在一个可复用、可共享的平台上,还可以用完善度、复用度和规范度来评估模型设计的好坏,这些都能够提升我们开发的效率和质量。 最后一步就是指标数据的呈现和数据分析,只有将有数据指标的数据反馈出来,数据指标才有意义。我们一般会为数据指标体系建立一套看板系统或报表系统。 在更高级的使用阶段,可以实现自助取数的功能,让业务人员能够自主获取自己需要的指标相关的数据,打破报表或者看板这种固化的分析思路,不用事事依赖分析师同学。为了能够进行更加全面的进行数据分析,还需要实现数据的全维度钻取,因为分析师同学一般也只能依靠经验去判断一个指标有哪些可分析维度。 如果我们的指标系统能够提供一个指标的所有的可分析维度,并且能够根据需要呈现指标在各个维度下的取值,甚至能够不同维度组合进行层层下钻,这样就更容易找出指标波动的原因,这就是全维度钻取。这样就能够实现数据驱动下的精益运营,能够实现从目标量化、持续跟踪、异常诊断到决策反馈的数据驱动业务闭环。 结语 数据指标体系来源于要解决业务问题,得先搞清楚业务存在哪些问题 所以数据指标体系到底能解决什么业务问题才是最重要的,要能够基于数据指标变化的表象,找到影响业务的原因,并帮助解决这个问题,那老板或业务方才会认可数据指标体系的价值。 同样,数据指标体系的价值最终也是要回到业务价值上来,数据指标体系并不能直接产生业务价值,需要深入业务当中,提炼出有价值的指标,建立数据评价体系,来反馈业务。 但一般来说数分对业务理解不会比业务负责人更多,容易沦为出报表的团队,如何深入业务,如何1+1>2需要更多的思考,至少我现在没有答案...否则一旦发生裁员,这种说不清楚自己价值的团队会很危险 来源(公众号):五分钟学大数据
2025-02-11 10:54 89
目录 1、数据中台概念解析 2、数据平台:数据中台的技术基石 3、敏捷组织:激活数据价值的关键 4、数据中台的业务价值与实践 5、数据中台的未来展望 一、数据中台概念解析 1.1 数据中台的定义 数据中台是一种数据管理架构,旨在打破企业内部数据孤岛,实现数据在不同部门和业务线之间的共享与流通。它将分散在各个系统中的数据进行整合、清洗、统一管理,并以服务化的方式提供给各业务部门,使其能够基于统一的数据资产开展数据分析与应用。数据中台的建设需要强大的技术平台支撑,同时也离不开敏捷高效的组织保障。 1.2 数据中台的起源与发展 数据中台概念的提出,既有技术驱动,也有业务驱动。一方面,以Hadoop为代表的大数据技术发展日新月异,让海量数据的存储、计算、分析成为可能,为数据中台奠定了技术基础。另一方面,互联网的快速发展催生了数字化商业模式,企业开始意识到数据价值,亟需通过数据洞察来指导业务决策、优化运营效率,由此对打通数据孤岛、释放数据价值提出了迫切需求。 同时,传统企业在数字化转型中也面临着数据割裂、业务响应不及时等问题,而互联网企业的成功实践,如阿里巴巴的中台战略,为传统企业树立了标杆,加速了数据中台在各行业的应用和普及。 1.3 数据中台的核心组成要素 数据平台与敏捷组织,看似是两个不同领域,但在数据中台的语境下,二者相辅相成,缺一不可。数据平台解决了数据要素的"存流用"等技术问题,但如果没有一套高效的组织方式,没有一群懂业务、善分析、会应用的复合型人才,再完善的平台也难以真正发挥作用。反之,单纯的组织变革,如果没有一个强大的数据和算力后盾,也很难在数字化时代立于不败之地。 因此,我们需要用系统思维、全局观念来统筹数据中台建设,以开放的心态拥抱变化,以创新的勇气打破边界,让业务、技术、数据三位一体,在敏捷的氛围中碰撞出智慧的火花。 二、数据平台:数据中台的技术基石 2.1 数据平台的定义与架构 数据平台的架构设计需要兼顾灵活性、可扩展性、安全性等多个维度。在数据源层,要考虑异构数据源的接入能力,在架构上往往采用分布式的设计,以便支持海量数据的存储和处理。在数据集成层,需要考虑多种数据处理模式,如ETL、ELT、CDC等,以应对不同的业务场景。在数据存储层,要根据数据特征和业务需求,合理选择存储引擎,并进行容量规划和性能优化。在数据服务层,要注重数据服务的可复用性,提供标准化的接口协议和规范化的元数据管理。 总之,数据平台的设计需要在性能、成本、复杂度之间进行权衡,需要循序渐进、不断演进。一个成熟的数据平台往往经历了单一数据源到多源异构、批处理到流处理、集中式到分布式的发展过程。建设之初,可以从某一业务痛点切入,快速见效,然后再逐步扩大平台边界,丰富平台功能。 2.2 数据集成与存储 2.2.1 数据采集 数据采集的首要原则是全面性,即要尽可能地将对业务运营、决策有价值的数据纳入采集范畴。其次是实时性,对于业务变化较快的实时数据,需要借助Kafka等消息队列实现实时采集与传输。此外,在采集过程中要注意数据格式的标准化,如对日期、金额等字段进行统一格式定义,为后续的数据处理奠定基础。 2.2.2 数据清洗与转换 在数据清洗方面,要制定完善的数据质量标准,从完整性、唯一性、及时性、准确性等维度,设定数据质量校验规则。利用表的逐条扫描或者UDF函数,实现重复数据的识别、异常数据的修正,并建立数据质量看板,直观展示数据质量状况。 在数据转换方面,需要预先梳理业务主题模型,定义统一的业务口径和计算逻辑。利用SQL、MapReduce、Spark等数据处理工具,对分散的原始数据进行抽取、聚合、关联,形成面向主题的汇总表或宽表,便于后续的分析应用。在转换过程中,要权衡数据的时效性和计算成本,采用T+1、T+N等不同时效的数据处理策略。 2.2.3 数据存储 选择数据存储方案时,首先要明确对数据的访问模式。如果以批量、复杂的分析查询为主,则更适合用Hive等面向分析的数据仓库;如果以单条记录的随机读写为主,则HBase等NoSQL数据库是更好的选择;如果需要进行海量数据的关联探索,则Kylin等OLAP引擎是理想方案;如果要存储爆发的流式数据,则Druid、InfluxDB等时序数据库大有可为。 因此,数据平台往往呈现多元异构的存储格局。面对这种异构环境,我们要通过统一的元数据管理、访问接口等手段,屏蔽底层存储差异,让数据使用者能够以更简单、透明的方式访问数据。同时,要关注存储系统的可扩展性,当数据量激增时,能够通过横向扩容、数据分片等手段,提升系统吞吐能力。 2.3 数据分析与挖掘 2.3.1 OLAP分析 OLAP分析是数据中台的重要功能,它以多维数据立方体为基础,支持flexible、interacttual的数据分析。一个典型的OLAP分析过程包括:定义维度、度量 - 物理化数据立方体 - 聚合运算 - 可视化展现等步骤。 在维度设计上,要全面刻画业务实体,如客户可以从年龄、性别、地域、消费等角度描述。在聚合运算上,要选择恰当的聚合函数,如求和、平均、计数等。此外,OLAP分析还需要支持灵活的切片切块、上钻下取等操作,让使用者能够从不同角度、不同粒度分析数据。 常见的 OLAP引擎如 Kylin、Mondrian都提供了可视化设计工具,大大降低了开发门槛。但OLAP分析也有其局限,如不擅长复杂的统计分析,难以挖掘数据内在规律。因此,OLAP分析常作为数据分析的"前菜",为后续的数据挖掘、机器学习提供特征数据。 2.3.2 数据挖掘算法 数据挖掘旨在从海量数据中发现隐藏的、有价值的知识。它综合运用统计学、机器学习等方法,建立描述数据内在规律的模型。常用的数据挖掘算法如下: 关联规则:发现事物之间的关联性,如啤酒和尿布的购买相关性。典型算法有Apriori、FP-Growth等。 聚类分析:把相似的事物自动归入一个集合,形成若干个类簇。典型算法有K-Means、DBSCAN等。 分类预测:通过已知类别的样本,训练出判别模型,对新样本进行类别预测。典型算法有决策树、朴素贝叶斯、SVM等。 异常检测:识别出明显偏离大多数的异常数据,在反欺诈、风控等场景应用广泛。典型算法有统计检验、聚类等。 推荐系统:根据用户的历史行为,推荐其可能感兴趣的内容。典型算法有协同过滤、矩阵分解等。数据挖掘需要与业务场景紧密结合。我们要明确挖掘目标,选择恰当的算法,调试算法参数,并用业务知识解释算法结果,持续迭代优化,让数据挖掘产生切实的业务价值。 2.3.3 机器学习与人工智能 随着算法模型的日益成熟和计算力的不断提升,机器学习已成为人工智能的核心驱动力,在图像识别、自然语言理解、知识图谱等领域取得了瞩目的进展。机器学习大致可分为监督学习、非监督学习、强化学习等范式。 监督学习从大量已标注的数据中学习,训练出从输入到输出的映射模型。如我们从历史数据中学习,建立"用户特征 - 是否流失"的判别模型,来预测新用户的流失可能。非监督学习从无标注数据中学习,自动发现数据的内在结构和规律。如用LDA主题模型,从海量文本中自动提炼出主题词。强化学习通过智能体与环境的交互,不断试错,最大化长期收益。如AlphaGo通过大量的自我博弈,掌握了高超的围棋策略。 要将机器学习大规模应用到业务中,离不开数据中台的算力支持。我们要为模型训练提供充足的算力,利用GPU、FPGA等异构硬件加速计算。在算法工程化方面,要规范化机器学习流程(数据准备-特征工程-模型训练-模型评估-模型服务),打通从样本数据到预测接口的全链路。 2.4 数据服务与API 2.4.1 数据服务目录 梳理数据服务目录,本质是对企业数据资产的盘点。一方面,通过目录梳理,我们可以系统地了解企业有哪些数据、这些数据分布在哪里、主要用于哪些业务场景,进而规划数据治理工作。例如,当发现某业务场景缺乏必要的数据支撑时,我们就要考虑补充相关数据。另一方面,数据服务编目也是服务管理、服务复用的基础。通过统一目录,使用者能够便捷地检索数据,根据接口规范调用数据,避免重复劳动。 在梳理服务目录时,要对数据资产进行适当分类,如按主题划分为客户数据、营销数据、财务数据等,按来源划分为业务库数据、日志数据、外部数据等。对数据表及其字段,要添加易于检索的标签,记录数据的业务含义、权限要求等元信息。 此外,随着企业数据服务的日渐丰富,服务之间的依赖关系日益复杂,这就要求我们实现服务的可视化血缘分析,即清晰展现出一个服务调用了哪些上游服务,又被哪些下游服务调用。这样当某个基础数据发生变更时,我们可以评估其对相关服务的影响。 2.4.2 API管理与治理 对于大型复杂系统而言,API已成为连接各子系统的重要纽带。数据平台要以API的方式,把数据服务开放给各业务应用使用。与此同时,API的管理与治理也成为关键课题。首先是API的设计要严格遵循REST等成熟规范,力求接口定义的标准化。其次要建立API的全生命周期管理流程。以API网关为例,在API创建时,需发布API文档、SDK,并定义API级别、配额等策略。在API运行时,要监控API的调用量、延时等指标,及时优化性能瓶颈。在API变更时,做好版本管理,保证兼容性。在API下线时,提前通知调用方,以免影响业务连续性。 API治理的核心是为API提供统一、标准、规范化的管理方式,减少对API的滥用和错用。我们要明确API的适用场景和约束条件,合理划分不同业务方对API的访问权限。同时,建立API的计量计费机制,以API调用次数等指标,合理分摊成本。在安全方面,要对API请求进行认证和鉴权,防止未授权的访问。此外,要保证API的高可用,当某个API节点故障时,可自动切换到备用节点。 2.5 数据安全与隐私保护 2.5.1 用户权限管理 在大数据时代,数据已成为企业的核心资产。而数据资产的安全访问与合规使用,离不开严谨、细粒度的权限管理。基于角色的访问控制(RBAC)是常用的权限管理方案。我们首先要梳理企业内的用户角色,如数据管理员、业务分析师、应用开发者等,明确各角色的数据使用边界。然后要将角色与权限相关联,可采用用户-角色-权限三层架构。即一个用户可对应多个角色,每个角色定义一组数据访问权限,如可读、可写、可删除等。 除了基于用户角色,权限管控还可基于数据资产的敏感程度。比如对客户的身份证号、手机号等隐私数据,要设置更严格的权限,如只有个别业务处理岗位才能读取。而对于汇总类的统计数据,可适当放宽权限,供更多人员查看。 在实现上,Hadoop生态提供了基于角色的权限管理机制,如Ranger、Sentry等,可集中管理Hadoop组件的访问权限。对于自研的数据服务,可利用Shiro、Spring Security等安全框架,将权限管理嵌入到系统中。 2.5.2 数据脱敏 大数据技术让企业能够采集、存储海量数据,其中不可避免地包含一些敏感数据。如果这些敏感数据被不当利用,极易造成用户隐私泄露、企业声誉受损。数据脱敏正是为了最大限度保护数据安全,又不影响数据可用性而生的。 数据脱敏的常见方法有: 数据加密:利用加密算法,将明文数据转换为密文。在使用时需要解密还原。适合于敏感程度高,但使用频次低的数据。 数据掩码:利用特定规则,对敏感信息进行部分屏蔽。如将手机号"13012345678"掩码为"130****5678"。掩码后的数据可用于日常业务查询,而敏感信息得到保护。 数据替换:用一个假名值来替代真实的敏感值。如对姓名进行哈希映射,将"张三"替换为一个随机串"as34f"。替换后的数据仍可开展分析,但难以追溯到真实个人。 数据删除:对于高度敏感且不再使用的数据,应及时删除。这需要制度规范和技术工具双管齐下。 值得注意的是,脱敏通常发生在数据流动的"最后一公里",即在呈现给用户时进行。这就要求我们有选择性地对不同数据消费场景进行脱敏。如对于BI类的统计报表,往往只需较弱的掩码脱敏;而对于对外开放的数据,则要进行彻底的加密脱敏。 2.5.3 安全审计 安全审计是事后监管,对平台上每一次数据访问行为进行记录、分析,用以识别可能的数据泄露或违规操作。当前,大数据平台中的用户行为日志高度分散,传统的日志收集与关联分析方法难以满足要求。因此,亟需建立大数据安全审计机制。 具体而言,审计日志要涵盖多个关键要素:时间(when)、地点(where)、人员(who)、数据(what)、行为(how)等,用以还原数据访问的5W1H。在采集过程中,要注意日志的规范性与集中性,定义统一的日志格式,采用flume等工具进行集中采集。考虑到海量的审计日志给存储和计算带来的压力,可利用主题模型、关联规则等算法,提取日志的行为模式,再利用机器学习算法建立异常行为甄别模型,从而实现自动化的违规行为发现。 总之,数据中台要筑牢"安全防火墙",将"堡垒"前移至数据采集、存储、流通、使用等各个环节。既要"以防为先",完善制度流程,加强权限管控与脱敏处理;又要"以查为用",借大数据分析手段,对数据使用行为进行穿透式审计,消除潜在的数据安全隐患。 三、敏捷组织:激活数据价值的关键 3.1 传统组织模式的局限性 在传统的职能制组织中,业务部门和数据部门往往是割裂的。一个典型的数据需求流程是:业务部门提需求 - 数据部门出方案 - 业务反馈不满足 - 数据重新开发。业务与技术的鸿沟,导致需求响应迟缓,开发成本居高不下。而数据部门对业务理解不足,只能被动接受需求,缺乏主动洞察业务的动力,难以真正发挥数据的价值。 当前,越来越多的企业意识到,打破部门壁垒,构建敏捷组织,让业务、数据、技术紧密融合,是数据中台落地和发挥价值的关键一环。通过跨部门人才组建数据小组,以产品思维和持续迭代的方式开展工作,快速验证数据价值,把数据的效用最大化。 3.2 敏捷组织的优势 3.2.1 跨部门协作 传统的开发模式中,制定需求、设计方案、进行开发、测试上线等环节,由不同部门各自负责,导致协作成本高,进度难以把控。而敏捷组织打破部门藩篱,组建跨职能的产品开发小组。小组成员来自业务、产品、开发、数据等岗位,掌握产品全生命周期的技能。这种"全栈化"的人才结构,有利于增进部门间的理解和信任,形成"主人翁"意识,激发团队的创造力。 例如,当业务提出一个数据需求时,在传统模式下,需求会在不同部门间流转,每个部门只关注自己的一亩三分地。而在敏捷组织中,来自业务、数据、开发的成员齐聚一堂,围绕需求展开头脑风暴,分析数据的潜在价值,设计数据应用方案。大家立场统一,目标一致,迅速达成共识,形成可落地的方案。 3.2.2 快速迭代 当前瞬息万变的市场环境,决定了企业必须以快制胜。而大数据系统的开发往往周期漫长,系统上线时,需求可能已经变了。敏捷开发正是针对这一痛点而生。它倡导将一个大目标分解为若干个小目标,每个小目标都可在1-2周内完成,并产出可用的产品增量。 在数据中台建设中,我们可采用"数据即服务"的思想,将数据服务拆分为多个独立的小模块,每个模块围绕某个数据主题,提供一组相对完备的API,可被下游系统灵活调用。这种"微服务化"的架构,可显著提升平台的迭代速度。 以某银行的客户画像系统为例。传统的做法是设计一个涵盖各种标签的大而全的客户画像,历经数月才能建成。而采用敏捷思维后,团队将客户画像划分为人口属性、资产、行为、偏好等多个子域,每个子域可独立开发。先快速建立MVP(最小可行产品),覆盖关键标签,尽早应用到营销等场景中,在使用中不断完善。3个月内,即建成一套可持续演进的客户画像体系,且收效斐然。 3.2.3 持续交付 持续交付是敏捷开发的高级阶段,它要求在代码变更后,能快速、可靠地将变更部署到生产环境,实现价值的"高频小步"交付。这对开发运维一体化(DevOps)提出了更高要求。我们要打通需求、开发、测试、部署、运维等各个环节,利用自动化工具实现端到端的流程贯通。 在数据中台建设中,我们要规范数据分析、数据开发流程,利用Jenkins等CI工具,将数据处理逻辑的变更,自动编译、测试、打包、发布。利用Ansible等运维工具,实现一键式环境部署。利用Prometheus、Grafana等监控工具,实时采集数据服务的性能指标,及时发现和解决故障。 持续交付让数据分析、数据开发如丝般顺滑,极大压缩了数据应用的"创新周期"。但它对团队的技术实力和协作能力提出了更高要求。我们既要打造全栈化的数据团队,又要营造开放、包容、互信的组织文化,让创新的源泉充分涌流。 3.3 业务敏捷Scrum框架 3.3.1 Scrum角色 Scrum框架中,对传统的项目角色进行了重新定义。这种新的角色划分打破了职责边界,强调个人跨界发展,增强了组织韧性。 产品负责人(PO)作为需求方代表,全面把控产品方向。PO需要平衡业务利益相关方的诉求,引导团队聚焦最有价值的需求。这就要求PO既要熟悉业务,又要深谙技术。在数据中台团队中,PO往往由业务部门的骨干和数据部门的专家共同担任,以业务视角驱动数据应用的产品化。 Scrum主管(SM)是敏捷教练和引导者。SM负责营造高效、和谐的团队氛围,协调资源,推动Scrum流程在团队内扎根。这就要求SM具备出色的沟通、谈判、组织能力。在数据中台团队中,SM可由经验丰富的项目经理或架构师出任。 开发团队则是Scrum的主力军。Scrum团队通常由5-9人跨职能人员组成,既有懂业务的产品经理,又有擅长数据分析、数据开发的技术专家,大家协同工作,互补长短。在自组织的团队氛围中,成员的创造力和主人翁意识得到激发,团队凝聚力和战斗力倍增。 3.3.2 Scrum事件 Scrum规定了一系列规范的仪式,将约束转化为自觉,让团队在民主和高效中找到平衡。Sprint是Scrum的核心, 通常以2-4周为周期,团队在此期间完成一个产品增量。Sprint让庞大的开发任务变得可分割、可管理,将不确定性降到最低。Sprint开始前,举行Sprint计划会议,团队对照产品Backlog,评估工作量,选择本次Sprint要完成的需求,制定Sprint Backlog。之后在每日站会上,团队成员简要汇报昨天完成的工作,今天计划的任务,遇到的障碍等,以自我管理的方式共同推进Sprint的进行。 Sprint结束时,召开评审会议,团队向PO展示本次迭代的成果。PO根据验收标准,给出反馈意见,决定是否发布。无论成败,团队还要举行回顾会议,总结经验教训,找出改进措施。Sprint让团队在紧张有序中前行,在反思改进中成长。 Scrum的一个独特实践是每日站会。团队成员每天都要围站在一起,简单回答三个问题:我昨天为Sprint目标做了什么,我今天计划做什么,有什么障碍需要解决。站会时间控制在15分钟内,简洁高效。通过站会,团队及时同步信息,发现问题,调整方向,形成紧密的协作网络。 3.3.3 Scrum工件 Scrum框架中的各种工件,如用户故事、Sprint Backlog、燃尽图等,是团队沟通和自我管理的重要工具。用户故事是从用户视角表述的需求,通常由PO编写。一个好的故事要体现用户、功能和价值三要素,如"作为一个数据分析师,我希望有一份销售日报,以便及时洞察销售情况"。将需求细化为一个个小故事,可降低交付风险,缩短反馈周期。 Sprint Backlog由开发团队分解产生,是本次迭代要完成的任务列表。与传统的需求文档相比,Backlog更加灵活、易于变更。团队每天更新Backlog,调整优先级和工作量估算,确保Sprint目标如期达成。 燃尽图直观展示了Sprint的完成进度。横轴是时间,纵轴是剩余工作量,随着Sprint的进行,曲线应稳步下降。燃尽图揭示进度异常,让团队有机会及时应对。例如,如果线路平缓,说明近期没有需求完成,要分析是否是技术障碍或外部依赖导致。 在数据中台团队中,我们要因地制宜地应用Scrum工件。围绕数据集成、数据服务、数据应用等目标,梳理出清晰、细粒度的待办需求。将需求装入产品Backlog,并随时保持排序和更新。Sprint内则聚焦少数高价值需求,快速开发,灵活应变。通过燃尽图和Jira等敏捷管理工具,团队能及时掌控Sprint进展,在自我管理中激发潜能。 3.4 敏捷转型的挑战与应对 尽管敏捷开发已被证明是行之有效的研发模式,但对于习惯了传统"瀑布"模式的团队而言,转型之路并不平坦。组织惯性、思维定势、能力缺口等,都将对敏捷转型形成阻力。 在组织结构方面,敏捷倡导扁平化、去中心化的团队架构,强调自组织和主人翁精神。这与等级森严的科层制组织存在天然的张力。转型过程中,我们要循序渐进地重塑组织架构,先从局部突破,以点带面。比如可先在数据应用项目中试点Scrum,积累经验后再向数据平台建设推广。我们还要打造"服务型"的职能部门,建立灵活的人才流动机制,让团队能随需求而动态调整。 在流程和工具方面,敏捷倡导"个体和互动高于流程和工具"。但这并不意味着完全抛弃流程和工具,而是要因地制宜地应用。对于数据平台这样复杂的系统,我们仍需建立最小必要的规范流程,如数据治理流程、数据开发规范等。同时,要用好现代化的敏捷工具,如用Jira管理Backlog,用Confluence沉淀知识,用Jenkins实现持续集成。但要警惕工具成为"挡箭牌",失去敏捷的精髓。 思维转变的挑战或许更加艰巨。无论是管理者还是团队成员,都难免受传统观念的束缚。管理者要学会放手,以"授权型领导"取代"指令型控制",为团队创造宽松、互信的环境。团队成员要革故鼎新,学会自我驱动,用开放的心态拥抱变化。这需要组织持续开展敏捷教练和培训,营造鼓励创新、宽容失败的文化。 四、数据中台的业务价值与实践 4.1 提升数据驱动的业务洞察力 在数字化时代,无数据,不决策。企业要从数据中获得敏锐、深刻的业务洞见,指导战略制定、资源配臵、运营优化。数据中台的建立,为企业的数据驱动决策奠定了坚实基础。 在战略层面,企业领导者需要通过数据,洞悉市场格局、行业趋势、消费动向,做出精准的投资布局。以某快消品巨头为例,基于数据中台整合线上线下销售数据,借助机器学习算法,该公司准确预测了新品类的市场前景,抢先布局,实现了业绩弯道超车。 在管理层面,各业务部门需要通过数据,及时发现经营短板,评估改进成效。数据中台为业务管理者搭建了"驾驶舱",以可视化报表和监控大屏的形式,呈现业务运行的实时状态。当关键指标出现异常时,系统可自动预警,引导管理者深入查因,精准施策。 在执行层面,一线业务人员需要通过数据,了解用户画像,优化作业流程。以某电商的智能客服系统为例,该系统基于数据中台的客户行为数据和订单数据,训练了客户意图识别和个性化推荐模型。客服人员借助该系统,可快速判断客户意图,用最合适的话术和商品推荐来满足客户需求,并对客户购后评价进行情感分析,发现服务改进点。 数据驱动的洞察力,让企业在动荡的商业环境中,立于不败之地。但这种洞察力不是一蹴而就的,而是在漫长的数据积累和持续的业务练兵中修炼而成。正所谓"数据如大海,业务如枪炮"。唯有在数据中台的滋养下,以敏捷的业务实践为试金石,方能淬炼出一支具有战略视野、能攻善守的数据军团。 4.2 加速产品与服务创新 当前,技术创新日新月异,消费者需求瞬息万变,产品和服务创新成为企业突围制胜的利器。数据中台为创新提供了源源不断的养料,让企业以更低成本、更快速度,开发出最契合用户需求的产品和服务。 一个鲜明的例子是Netflix的个性化推荐。Netflix拥有海量的会员观影数据,覆盖观看时长、暂停位置、搜索内容等多个维度。这些数据经中台加工、沉淀,成为算法模型的"学习材料",再反哺到个性化推荐系统。据统计,Netflix超80%的会员观影来自个性化推荐。推荐系统不仅提升了用户体验,也对内容投资产生了重要影响。通过分析用户观影偏好,Netflix可洞悉题材、类型、演员等要素的吸引力,指导内容采购和自制剧战略,最大化投资回报。 再如某保险公司的"千人千面"产品策略。该公司将理赔数据、客户数据、行为数据等汇聚到数据中台,通过客户细分和特征分析,将客户划分为风险偏好、健康意识、价格敏感度等不同群体。产品经理基于群体洞察,针对性地设计出定制化的保险产品,并在中台搭建的AB测试平台上快速验证产品假设,从而缩短了产品上市周期,提升了收费保费规模。 创新无止境。唯有让创新基因融入组织血脉,以数据中台为创新加速器,企业方能在创新的道路上越走越宽广。但创新绝非蛮干,更需要精准的战略指引。数据固然重要,但不能被数据牵着鼻子走。要立足企业战略和行业趋势,甄别出最有价值的数据,以"少而精"的数据应用撬动"多而广"的业务创新。 4.3 优化运营效率与用户体验 在数字化浪潮中,效率至上,体验为王。运营效率直接影响企业成本,用户体验直接影响企业收益。数据中台为运营优化和体验提升插上了腾飞的翅膀。 在运营方面,企业需要通过数据监测每一个运营环节的效率瓶颈,并优化资源配置。以某快递公司为例,该公司将订单、包裹、运力等数据集成到中台,应用动态调度算法,对运力进行实时优化,缓解高峰期"爆仓"问题。运单数据还被进一步加工为网点KPI,对网点进行效能管理。管理者即可纵览全局,又能下钻到每一个网点、每一名快递员,精细化管理水平大幅提升。 在体验方面,企业需要通过数据还原每一位用户的使用旅程,洞察用户真实诉求,提供个性化体验。以某在线教育平台为例,该平台汇聚学生画像、学习行为、练习得分等数据,针对不同学生提供个性化的学习路径。当发现某学生的练习正确率下降时,系统会自动推送针对性的题目和微课。通过数据驱动的个性化学习,学生完课率和续费率均得到显著提升。 运营和体验的优化是一个动态的过程,需要持续的数据回流和算法迭代。这就要求数据中台具备完善的数据采集和数据处理机制,让业务应用能便捷地调用所需数据。同时,业务团队也要树立"增长黑客"的意识,主动嵌入数据分析能力,用实验思维进行产品优化。唯有让前台业务应用与后台数据中台形成闭环,方能真正实现业务和数据的双轮驱动。 4.4 国内外企业数据中台案例 当前,国内外众多企业都在积极探索数据中台之路,并从中收获了丰硕的业务价值。 阿里巴巴集团是国内最早倡导中台战略的企业。阿里的数据中台整合了集团内部包括淘宝、天猫、支付宝、菜鸟等业务的数据,涵盖交易、物流、金融、客服等各个环节。在此基础上,阿里构建了丰富的数据产品和服务,如统一用户画像、智能推荐、实时风控等,为商家赋能,支撑集团业务不断做大做强。以统一用户画像为例,它汇聚了用户在各业务域的行为数据,刻画了用户的商业特征和价值,成为阿里精准营销、千人千面的基石。据测算,2018年,仅用户画像、智能推荐两个数据应用,就为阿里贡献了超500亿的GMV。 腾讯在游戏领域打造了行业领先的数据中台。腾讯游戏数据中台囊括数十款游戏产品、数百个业务系统,通过统一的数据采集、数据处理、数据服务架构,支撑游戏业务的精细化运营。围绕用户生命周期管理,腾讯构建了新用户预测、付费意愿预测、流失预警、社交网络分析等一系列数据应用,并配以灵活的运营工具,显著提升了用户转化和留存。据统计,腾讯游戏的ARPU(单用户平均收益)、月活用户数等核心指标,在数据中台应用后均实现翻倍增长。 美国零售巨头沃尔玛近年来通过数据中台实现了线上线下一体化运营。沃尔玛将线下门店的POS交易数据、用户消费数据与电商平台数据打通,洞悉用户线上线下的全渠道购物行为。依托中台强大的数据处理能力,沃尔玛优化库存管理,提高门店的到货率和上架率。通过订单履约算法,沃尔玛还能精准预测区域性需求,为门店的商品选品提供决策支持。2018年,沃尔玛线上业务增长40%,1300家门店实现两位数的增长,中台功不可没。 人工智能公司第四范式专注于为企业客户提供AI中台解决方案。第四范式将客户的业务数据、算法、模型、应用集中管理,让企业能快速开发和部署AI应用。以某银行反欺诈项目为例,银行将用户画像、行为数据接入第四范式数据中台,调用中台内置的异常检测、关系网络等算法,灵活配置风险策略,从而实现实时、精准的欺诈识别。据介绍,第四范式中台可将AI应用的开发效率提升10倍,并已在金融、制造、能源等行业获得规模应用。由此可见,数据中台已从概念走向现实,在多个行业、领域创造了显著的价值。值得注意的是,虽然不同企业的数据中台架构、功能、场景各异,但背后体现的"业务融合、数据融通、敏捷创新"的数字化转型理念是一致的。这为更多企业规划自己的数据中台之路指明了方向。 五、数据中台的未来展望 5.1 数据中台的进化方向 放眼未来,数据中台将从以下几个方向延伸和深化: 数据即服务(Data as a Service,DaaS)。 随着企业数字化程度的提升,数据资产将日益成为企业的核心竞争力。DaaS的概念应运而生,即企业将数据中台视为一个数据服务提供平台,不仅为内部业务赋能,还可面向外部合作伙伴、开发者、乃至最终用户提供数据服务,创造全新的商业模式。这需要企业从战略高度重新审视数据的边界、质量、权属、定价等问题,并探索数据确权、交易、结算等全新机制。 AI中台。 当前,深度学习、知识图谱等人工智能技术方兴未艾,但在企业中的规模化应用仍面临诸多挑战,如算法工程化难、数据采集贴标难、模型训练部署难等。AI中台的建设正是为了破解这些难题。基于数据中台积累的海量数据,AI中台可为算法模型提供优质的训练样本。基于成熟的机器学习工作流,AI中台可规范化、工具化算法开发流程,提升开发效率。基于统一的推理服务,AI中台可实现算法的快速部署和调用。总之,数据中台将与AI中台深度融合,形成互补的数据-算力支撑体系。 物联网时代的数据中台。 随着5G、边缘计算等技术的发展,物联网正从概念走向现实。海量的物联网设备将产生爆发式的数据增长,给数据中台的接入、存储、计算、分析带来全新挑战。物联网时代的数据中台需要具备更强大的数据集成与数据治理能力,尤其要支持多源异构数据的实时处理。此外,边缘端的数据分析、数据服务能力也将纳入数据中台的范畴,以实现端-边-云的协同计算。如何平衡物联网场景的时延、功耗、成本等约束,将是数据中台必须面对的新课题。 以区块链为基础的分布式数据中台。 当前,数据中台多以中心化的架构为主,数据汇聚和处理依赖于企业内部的集中式平台。但随着数据主体意识的觉醒和隐私保护的日益严格,这种中心化架构面临诸多挑战,如数据所有权争议、数据共享壁垒、数据泄露风险等。区块链技术为破解这些难题提供了全新思路。基于区块链的分布式账本、智能合约、安全多方计算等机制,有望构建一个多方参与、共同治理的联邦数据中台,实现数据在确保隐私与安全的前提下加密流通,让数据要素的价值得到最大化激活。 当然,上述展望绝非数据中台发展的全部。可以预见,数据中台作为连接数据、业务、组织的关键枢纽,必将以更加开放、敏捷、智能的姿态,融入到企业数字化转型的方方面面。而每一次数据中台能力边界的突破,都将为业务创新和价值创造开辟新的疆域。 5.2 总结与展望 数据中台是数字化时代的"新基建",代表了以数据驱动为核心的新型IT架构。这种新架构不仅仅是技术手段的迭代,更是管理理念、组织范式、商业模式的系统性重构。从本质上说,数据中台是企业应对数字化转型挑战的制胜法宝。然而,筑建数据中台绝非一蹴而就。打造一个成熟的数据中台需要在数据集成、数据存储、数据治理、数据服务等诸多方面形成系统能力,需要在跨部门协作、敏捷开发、持续交付等方面积累扎实经验。这注定是一场持久战,既考验企业的战略定力,也磨炼企业的转型毅力。 来源(公众号):DATA数据社区
2025-02-10 11:29 124
热门文章