在数字化浪潮的猛烈冲击下,制造业正经历一场脱胎换骨的深刻变革。如今,这场变革已硕果累累,数字化转型成效显著,而数据治理作为关键支撑,正大步迈向更深层次。 数字化转型:制造业的显著成果 生产流程智能化重塑 传统制造业生产流程繁杂,依赖大量人力,效率低且易出错。数字化转型后,智能设备和先进系统成为生产主力。以电子制造为例,自动化生产线上机械臂精准高速完成芯片贴装、电路板焊接等精细操作,速度和精度远超人工。智能生产管理系统实时收集生产数据,依据预设算法自动调整参数,优化生产节奏,避免设备闲置与物料浪费,生产周期大幅缩短,生产效率实现质的飞跃。 产品质量全方位升级 数字化转型为产品质量把控提供强大助力。生产线上遍布的传感器和检测设备,如同“质量卫士”,实时采集产品尺寸精度、物理性能、化学成分等关键数据。借助大数据分析和人工智能算法深度剖析海量数据,能迅速发现潜在质量隐患和细微偏差。问题出现时,系统立即报警,生产人员及时调整工艺参数,确保质量稳定。同时,数字化质量追溯系统详细记录产品全流程信息,质量问题可快速精准定位源头,实现高效召回处理,大幅提升产品质量水平。 供应链协同高效运转 数字化转型推动制造业供应链协同能力显著增强。搭建数字化供应链平台后,企业与上下游伙伴实现信息实时共享交互。供应商依据企业生产计划和实时库存精准安排原材料供应,避免库存积压或缺货;经销商及时了解产品库存和销售动态,合理规划采购;物流商根据订单优化配送路线和方式,提高物流效率。这种协同模式降低企业库存和物流成本,提升供应链响应速度和灵活性,增强市场竞争力。 创新活力充分释放 数字化转型为制造业创新发展开辟广阔天地。一方面,新兴数字化技术带来全新研发设计方式。设计师利用虚拟现实技术进行虚拟设计和模拟测试,提前发现设计缺陷,减少实物样机制作次数,缩短研发周期;3D打印技术快速制造产品原型和小批量产品,加速验证改进进程。另一方面,数字化转型促进企业间合作创新。通过数字化创新平台,企业与高校、科研机构及其他企业联合研发,共享资源技术,共同攻克难题,推动行业技术进步。 数据治理:向更深层次发展的必然 数据价值深度挖掘需求迫切 制造业数字化转型深入,企业数据量爆炸式增长。这些数据蕴含市场、生产、客户反馈等信息,对企业决策、生产优化和市场拓展价值巨大。但目前许多企业数据利用仅停留在表面,缺乏深度挖掘能力。为释放数据价值,企业需加强数据治理,构建完善管理体系和挖掘分析机制,提高数据质量和可用性,探寻数据背后潜在价值,为战略决策和业务发展提供支撑。 数据安全与隐私保护挑战严峻 数字化时代,数据安全与隐私保护是制造业重大挑战。制造业数据涉及企业核心机密和客户敏感信息,如生产工艺、产品设计、客户订单、个人身份等,泄露将带来巨大损失和声誉损害。随着网络攻击手段升级和数据泄露事件频发,企业对数据安全与隐私保护需求愈发迫切。企业需加强数据治理,建立完善安全管理制度和技术防护体系,加强数据访问控制、加密存储传输、备份恢复等管理,确保数据保密性、完整性和可用性。 数据标准与规范统一需求凸显 制造业数字化转型中,不同企业、系统和设备间数据格式、定义和接口存在差异,形成数据孤岛,影响企业内部协同和外部合作。为打破数据孤岛,实现数据互联互通和共享共用,企业需加强数据治理,建立统一数据标准和规范,对数据格式、定义、编码、分类等进行统一规定,确保数据一致性和兼容性。同时,搭建数据交换和共享平台,为企业间数据共享和业务协同提供技术支持。 重视数据治理人才培养 企业应加强数据治理人才培养,建立完善人才培养体系和激励机制。通过内部培训、外部培训、在线学习等方式,提高员工数据治理知识和技能水平,鼓励数据岗位相关员工考取数据类证书,充实数据治理团队。 来源(公众号):数据治理研究院
2025-12-12 16:30 28
现在随便走进一个人工智能战略会议,你就能立刻感受到那种氛围——紧张、兴奋,以及组织内部对落后的隐隐担忧。 我们正身处一场模型智能之战之中,每个领导者都想要最智能的模型,每个架构师都想要最先进的流程,每个工程师都在凌晨两点偷偷刷新基准排行榜。 而在这场战争中,一种危险的思想已经根深蒂固: “更精准=更有价值。” -听起来合乎逻辑。- 感觉很科学。- 在幻灯片上看起来很棒。 但这也是当今人工智能架构中最昂贵的陷阱之一——这个陷阱悄无声息地拖垮了预算,使项目脱轨,并使云账单膨胀了数百万元,直到首席财务官开始提出一些令人不安的问题,才有人注意到。 这个故事讲述了为什么准确率会变成一个虚荣的指标……以及如果不小心,它会如何毁掉你的人工智能战略。 一 模型智能之战以及它为何会伤害你 过去两年,人工智能行业一直在全速冲向一场决战: “你用的是哪个LLM项目?” 你进行过微调吗? “你参加的是70B计划还是400B计划?” 为什么我们不使用最新型号? 各团队开始像青少年比较球鞋发售日期一样比较参数数量。 而领导人——不愿显得“落后”——反而火上浇油: 更大参数的型号获得了批准。 分配了更多GPU。 人们默默地期待着完美。 突然间,工程团队不再构建解决方案,而是构建声明,试图跟上同行或竞争对手在会议上提到的任何模型。 这正是组织最终为了追求准确性而追求准确性的原因——这是最昂贵的陷阱。 二 收益递减规律且成本极高 以下是机器学习中一个令人不安的真相: 达到80% 的准确率很容易。 达到90%的准确率是可以实现的。 达到95%的准确率是极其痛苦的。 预算一旦达到99%的准确率,就注定失败。 为什么? 因为每一次渐进式的改进都需要: 更多数据 更清晰的标签 更多训练周期 更大参数的型号 更多 GPU 小时数 加强监测 更多实验 更多的一切 数学计算很残酷。 提高准确率往往会遇到收益递减的问题——每提高一个百分点,都需要指数级增长的计算能力、时间、人才和金钱投入。 当准确率达到90%以上时,你对抗的不再是随机性,而是物理定律。 在许多情况下,为了提高最后 2-3% 的准确率而付出的成本,比该模型的整个商业价值还要高。 这就是陷阱。 准确率不是一个衡量标准,而是一个商业决策。 让我们从首席财务官的角度来看待“准确性”这个概念: 精准是要花钱的。 不准确会造成经济损失。 你的任务是确定在经济上最合理的最低精度要求。 目标不是完美, 而是最优经济效益。 以下是高管们真正应该关注的框架:三大准确度区域及其真正的商业价值。 1.低风险区(准确率 80-90%) 使用案例:推荐、标签、排名、内部搜索。 错误并非总是会对企业造成损害(“视情况而定”)。 速度和成本比精确度更重要。 每次请求成本为 1 分、准确率达到 85% 的模型,其投资回报率通常是准确率 98%、成本为 15 分的模型的10 倍。 这就是聪明的团队选择小型模型并取得成功的原因。 2.人机交互区域(准确率90-95%) 使用案例:客户支持草稿、代码生成、文档摘要。 人工智能负责繁重的工作, 人类则处理特殊情况。 这个区域简直是个金矿。无需花费巨资进行最后一公里自动化, 就能大幅提高生产效率。 混合智能总是胜过过度设计的完美方案。 3.关键区域(99%以上) 应用案例:欺诈检测、医疗预测、自主系统、合规性。 在这些情况下,错误会造成严重的法律、经济甚至生命危险后果。 是的,在这里,你需要投入大量资金。 但大多数公司犯的错误是什么呢? 把每个问题都当作第三区的问题来处理。 三 一个真实的故事:一台价值 0.15 元的收据扫描仪证明了这一点 一家物流公司希望实现费用收据处理的自动化。这是一个简单的应用案例。 但高层有人坚持说: “我们需要99%的准确率。” 因此,数据团队建造了一个巨大而笨重的视觉模型——本质上是一个用于观察咖啡收据的显微镜。 每次扫描费用:0.15元 平均收据金额:3-7元 他们花在核对收据上的钱比报销的钱还多。 当他们转而使用: 微型模型 准确率 85% 疑难病例需人工审核 总成本下降了80%,处理速度加快了,而且人类的速度仍然比以前快 10 倍。 他们不需要完美, 他们需要的是盈利。 四 如何打破组织内部的准确性迷思 最快的方法是什么? 用数据说话,不要凭感情用事。 带上一个模型 ROI 计算器,将准确率转化为元、人力、计算和总业务成本。 为了计算真正的投资回报率,我们不能仅仅考虑推理成本。我们还必须考虑干预成本(人类纠正人工智能低置信度猜测的成本)和失败成本(人工智能出错但无人发现的成本)。 总成本 = 模型成本 + 人工审核成本 + 错误责任成本 核心输入(变量) 让我用上面收据用例中的例子来说明这一点。 选项 1——高级高精度型号 让我们用一个昂贵、高精度(99%)的模型来运行收据用例成本。 方案二——混合模式(高效+人机协作) 让我们用一个足够高效的模型(准确率达到 85%)加上人工参与,来运行收据用例成本计算。 最终比较 突然间,准确性不再是一个技术问题,而变成了一个经济问题。 五 最终结论:智能人工智能并非最智能的人工智能,而是最经济的人工智能 未来十年最大的竞争优势不会来自最大的型号或最令人印象深刻的基准模型。 它将来自那些理解这个简单真理的组织: 模型不需要完美,但必须盈利。 最终胜出的公司将是那些: 选择合适的精度区域 停止追逐虚荣指标 巧妙地运用人类 精明消费,而非大手大脚花钱。 优先考虑投资回报率而非排行榜分数 摒弃“准确性=价值”的迷思 因为完美是一种奢侈, 而盈利才是生存之道。 来源(公众号):数据驱动智能
2025-12-11 12:22 46
文 | 国家数据发展研究院副院长 袁军 习近平总书记指出,“数字技术作为世界科技革命和产业变革的先导力量,日益融入经济社会发展各领域全过程,深刻改变着生产方式、生活方式和社会治理方式”“要构建以数据为关键要素的数字经济”。当前,数据要素作为新型生产要素已成为驱动新质生产力发展的核心引擎。但我国数据要素相关学科专业和数字人才队伍建设,与数字经济和人工智能快速发展的要求还存在一定差距。在此背景下,国家发展改革委、国家数据局、教育部、科技部、中共中央组织部出台《关于加强数据要素学科专业建设和数字人才队伍建设的意见》(以下简称《意见》),以“数据要素学科专业建设和数字人才队伍建设”(以下简称“两个建设”)为核心,构建教育链、人才链与产业链、创新链深度融合的完整生态,对于抢占数字时代发展制高点具有深远战略意义。 一、战略定位:从人才短板到创新引擎,锚定“两个建设”的时代使命 当前,数据要素学科建设存在专业设置不合理、人才队伍结构不优、理论与实践脱节等突出问题,制约了深化数据要素市场化配置改革和数据赋能人工智能高质量发展等国家战略部署的落实。 (一)“两个建设”是落实中央战略部署的创新实践 党的二十大提出“加快建设教育强国、科技强国、人才强国”的战略目标,党的二十届三中全会强调“统筹推进教育科技人才体制机制一体改革,构建支持全面创新体制机制”,党的二十届四中全会进一步强调“一体推进教育科技人才发展,深入推进数字中国建设”。《意见》紧扣中央精神,建立数据领域科技发展、国家战略需求牵引的学科专业设置调整机制和人才培养模式,为推动数字技术创新和科技自立自强提供了坚实的人才支撑和制度保障,勾勒了与数字中国以及教育强国、科技强国、人才强国建设进程相匹配的人才培养时间表和路线图。 (二)“两个建设”是发展新质生产力的基石力量 数据是人工智能时代的战略性、基础性新型生产要素,也是形成新质生产力的优质生产要素。其可共享、可复制、无限供给等特征,超越了传统生产要素的局限,能够优化生产资本结构,推动产业优化升级,提升全要素生产率;同时,能够重构生产力系统内在质态,推动劳动资料从物理实体升级为“软硬一体”的智能系统,劳动对象从有形资源扩展至高价值知识产品,劳动者则从操作者转型为驾驭智能工具的“数智化主体”。《意见》通过系统性构建数据要素学科专业体系,为数据要素价值释放培育新型数字人才。 (三)“两个建设”是破解数据要素人才困局的重要举措 我国已从数据产权、流通交易、收益分配、安全治理四个方面开始构建数据基础制度体系。《意见》聚焦数据要素市场化配置改革中的人才支撑问题,针对传统人才培养体系与数据要素市场发展需求错配问题,通过构建“两个建设”具体制度,推动数据要素治理制度从“框架搭建”向“落地实施”延伸。 二、核心内容:构建“四位一体”发展体系,打通数字人才培养全链条 《意见》围绕学科专业、职业教育、学术研究、产学研用四大维度,以产教融合优化人才供给结构、以科教融汇推动创新与育人互促、以科产融通强化实战能力等“三融”为手段,共同构建了从理论创新到产业应用的全链条人才培养体系。 (一)优化学科专业布局,筑牢人才培养根基 学科专业是人才培养的基石。《意见》从优化学科设置、分层分类建设、建强教学要素三方面入手,推动数据领域学科专业系统性构建。一方面,建立“本硕博衔接”的培养机制,解决传统教育中本科教育宽而不精、研究生培养与产业脱节问题。另一方面,创新性地提出“分层分类”建设思路,支持综合性高校建设数字学院整合资源,引导理工类、财经类等特色高校加强优势专业建设,鼓励地方因地制宜建设数据院校。增设“数据采集清洗、数据标注、数据合规、数据运营”等贴近市场需求的专业,精准对接数据产业链各环节的人才需求。这一系列学科专业布局,既保证高端研究型人才的培养,又满足市场对应用型、技能型人才的迫切需求。 (二)深化产教融合与职教改革,打通人才成长“最后一公里” 实践能力是产业落地的关键。《意见》以产教融合生态构建、教育教学改革、课程资源开发为主线,着力破解“学用脱节”痛点。在产教融合上,提出打造“市域产教联合体”和“跨区域产教融合共同体”的创新模式,推动人才培养与产业需求深度绑定。在职业教育改革上,鼓励企业深度参与职业院校教学,通过校企共建实训基地、共育师资队伍,有效破解教育教学与市场需求脱轨的困境。在课程设计上,突出实践导向,支持企业与院校开发基于真实场景的数字课程、工作手册式教材及项目案例库,推动优质资源全域共享。 (三)繁荣数据领域学术研究,强化数字人才创新能力 数据要素市场化配置需理论支撑。《意见》以“有组织科研”破解数据领域学术研究分散化、脱离实践的问题。一方面,开展数据产权、定价、交易等基础理论研究,紧跟人工智能、区块链等前沿技术,构建中国特色的数据要素自主知识体系。另一方面,加强数据领域学术共同体和数字人才梯队建设,依托学术期刊专栏、数字中国建设峰会等平台促进成果交流;同时推动科学数据与产业数据开放共享,为学术研究提供数据支持。 (四)推动产学研用深度融合,实现人才价值最大化 人才培养的最终目标是服务产业发展,《意见》以应用场景为载体,推动产学研用深度融合。一方面,通过“企业主导、多方协同”的模式,建设数字人才培养典型应用场景,支持高校、科研机构与企业联合开发技术、共享知识产权收益。另一方面,利用产业基础好、应用场景多的区位优势,鼓励数字中国建设综合试点、数据要素综合试验区等区域探索特色培养项目。通过场景驱动、项目牵引,让人才在实践中成长为“能用、好用”的实战型专家。 三、实施亮点:三大协同机制,为人才培养提供“制度保障” “两个建设”是一项系统工程,《意见》也在制度层面构建了高度协同的保障机制。 (一)多部门联动、央地协同,打破部门与层级壁垒 《意见》明确国家数据局会同教育部、国家发展改革委、科技部建立常态化联系机制,统筹推进“两个建设”;组织部门加强资源整合,避免“教育不管产业、产业不管人才”问题出现。在央地关系上,中央明确战略方向,地方结合区域产业优势制定细化方案,既确保全国层面政策的一致性,又赋予地方灵活性,保障政策落地见效。 (二)“政校企研”跨主体协同,构建人才培养闭环 数字人才培养需多方参与。《意见》通过制度设计推动政府、企业、高校、科研机构深度协调:政府搭建产教联合体、制定行业标准,为校企合作提供桥梁;高校与企业在学科专业建设、职业教育、学术研究各环节,精准对接教学内容与产业需求;科研机构提供理论和技术底层支持,推动前沿知识进课堂。各方通过分工协作,形成深度协同的人才培养闭环。 (三)学科专业设置与技术迭代协同,保持政策灵活性 数据领域产业需求变化快,极易出现培养滞后于需求的问题。《意见》坚持“动态调整”原则,如职业院校需“及时动态调整数据相关专业”,高校可根据产业急需开设“微专业”,数据管理部门需“跟踪监测实施效果、总结推广典型案例”。这一机制能让“两个建设”紧跟数据产业发展节奏,保持政策与技术发展同频。 《意见》的出台,标志着我国数字人才建设从分散探索迈向系统化、专业化、高质量发展的新阶段。既立足当前破解人才短缺的现实难题,又着眼长远构建人才发展的长效机制;既注重顶层设计的系统性,又强调实施路径的可操作性。随着政策的落地实施,我国将逐步构建起“教育链、人才链与产业链、创新链”深度融合的数字人才生态,为数据要素市场化配置改革提供坚实支撑,有力促进数据要素全面赋能新质生产力发展。 来源(公众号):北京数据
2025-12-10 22:21 62
文 | 国家数据专家咨询委员会委员,中国政法大学副校长、教授 时建中 数据流通安全治理规则是数据基础制度的重要内容,是实现高质量数据更大范围、更高效率、更加有序流通的前提,是充分释放数据价值的制度条件,是推动建设高水平数据市场的保障。国家数据局会同有关部门制定发布的《关于完善数据流通安全治理 更好促进数据要素市场化价值化的实施方案》(以下简称《方案》)全面贯彻总体国家安全观,统筹发展和安全,对于建立健全数据流通安全治理机制、提升数据安全治理能力、促进数据要素合规高效流通利用具有重要意义。《方案》坚持系统思维、底线思维,凸显了战略思维、法治思维,立足“安全”、落脚“发展”,明确了七项主要任务,以成本最小化实现安全最优化,推动数据高质量发展和高水平安全良性互动,加速构建繁荣且有序的数据市场,为充分释放数据价值、不断做强做优做大我国数字经济、构筑国家竞争新优势提供坚实支撑。 一、明晰数据流通安全规则,营造有序数据流通环境 规则是秩序的基石。《方案》将明晰数据流通安全规则标准、压实数据流通安全责任、强化数据流通权益保障作为重点任务,通过建设安全可信的制度环境助力营造稳定有序的数据流通环境。在规则设计的部署上,《方案》始终坚持以数据分类分级保护为基本原则,以数据安全标准体系建设为重点,细化了《数据安全法》第17条、第21条等有关规定,夯实了《方案》的法治基础。 其一,《方案》以数据分类分级保护原则为抓手,探索不同类型、不同风险等级数据流通规则的差异化设计方案,聚焦不同的数据安全保障重点,落实数据流通安全保障措施,压实数据流通安全责任。针对企业数据,《方案》明晰了重要数据与一般数据的差异化处理规则。构建了数据处理者依规识别、申报、采取必要安全措施保护重要数据的制度;针对政务数据,《方案》区分了数据提供方和数据接收方的数据流通安全管理责任原则,明确了公共数据授权运营机构的安全管理责任;针对个人数据,《方案》细化了《个人信息保护法》中“知情同意”相关规则及“匿名化处理”有关规定。同时,《方案》提出以国家网络身份认证公共服务等多种方式,以制度创新强化个人数据流通保障。 其二,《方案》强化了数据流通安全相关的标准建设,例如,制定或完善个人信息匿名化相关标准规范、数据流通安全标准、重点场景安全治理标准,健全数据流通安全治理机制,规范和促进数据流通。在贯彻落实《方案》、推动数据安全标准体系建设过程中,需要把握好“三组”关系:一是国家标准、地方标准和团体标准的关系;二是强制性标准和推荐性标准的关系;三是通用标准和特定应用场景标准的关系。强化数据安全标准底层互通性,切实发挥好数据标准的引领性作用,提高数据安全治理效能。 二、创新数据流通安全技术,提升数据安全治理效率 数智技术既是法治的对象,也是赋能法治的工具。《数据安全法》第16条规定国家支持数据开发利用和数据安全技术研究,数据安全技术与数据开发利用密不可分。《方案》将加强数据流通安全技术应用、支持数据流通安全技术创新作为重点任务、重要环节,本身就是一种创新。信息是数据的内容,数据是信息的载体。只有同步推进数据内容安全保护技术和数据载体安全保护技术的开发应用,方能有效且全面地支撑数据安全治理,促进数据流通发展。 在数据内容安全保护技术方面,《方案》不仅强调了数据脱敏、匿名化、数字水印等常见技术手段在保护国家安全、个人隐私和公共安全上的重要作用,而且提出了要融合运用数据指纹、区块链等新型技术手段,以实现数据流转过程留痕、数据交易全程追溯,高效支撑数据流通中的取证和定责,提升数据安全治理效能。 在数据载体安全保护技术方面,应以推动顶得上、稳得住的数据基础设施建设为重点。数据基础设施既是保障数据安全的能力底座,又是支撑构建全国一体化数据市场的重要载体。《方案》落实党的二十届三中全会所提出的“建设和运营国家数据基础设施,促进数据共享”的要求,对于数据流通利用基础设施的接入和使用,按照数据分类分级保护的原则,依法作出了制度安排。尤为值得肯定的是,《方案》提出“对于未认定为重要数据,但企业认为涉及重要经营信息的,鼓励数据提供方、数据接收方接入和使用数据流通利用基础设施,促进数据安全流动。”数据接入是任何形式数据处理和使用的前提,保障数据接入安全是数据流通利用基础设施的重要功能。在数据基础设施建设与应用过程中,应坚持最大幅度降低接入成本、提供接入的技术便利、公平对待所有接入企业等原则,保障数据安全,促进数据开发利用。 三、打造数据流通安全服务,强化市场主体交易信心 我国数据产存转化率低,数据产得出却难流动,看起来海量用起来不多,关键原因在于过高数据流通风险成本与较低数据流通收益之间的矛盾,导致市场主体对数据流通交易普遍缺乏信任、且信心不足。针对数据流通的现状,只有降本增信,才能提质增效。在总体要求中,《方案》提出“以成本最小化实现安全最优化”是化解数据流通堵点的正确之道。在主要任务中,《方案》提出“丰富数据流通安全服务供给”,贯彻“以服代管”的思想理念,对保障数据流通全过程全环节的安全具有重要意义,标志着我国在数据流通安全治理理念和思路转型上迈出了重要一步。 具体而言,《方案》一方面积极健全数据流通安全服务内容、充实服务供给,以培育健全数据流通安全检测评估、安全审计等服务,提升数据流通过程中的主体信任;以丰富数据托管等服务供给,研究探索为数据安全提供保险保障的可行方案,加强数据流通过程中的风险应对信心。《方案》另一方面鼓励支持数据流通安全服务创新、繁荣服务市场,通过强化数据安全服务的基础理论研究和核心技术攻关,加速数据安全服务发展专业化、规模化和一体化,实现服务增量,提升服务效能。值得强调的是,在数据流通安全服务多态性发展和规模性扩增的过程中,仍需以市场现实需求为导向、生产应用场景为牵引,更好地发挥市场作用,不可忽视数据安全服务有效竞争在促进数据安全服务高质量创新方面的重要功能。 四、加强数据流通安全执法,维护数据市场运行秩序 数据流通安全执法对保障数据流通过程安全、维护数据市场运行秩序具有显著功能。其一,通过严厉打击数据违法使用行为,防范化解数据流通安全风险;其二,维护数据流通各方主体权益,优化数据市场运行环境;其三,执法是最好的普法,通过发挥典型执法的示范效应,培育数据安全流通的市场文化。 加强数据流通安全执法效能关键在于执法能力建设。《方案》中明确指出要研究完善数据流通安全事故或纠纷处置机制,提升流通风险应对能力。在理解把握和贯彻落实时,首先,应当建立对执法本身的监督机制,避免机械执法、选择性执法、运动式执法等;其次,应当加强执法机构间的协同机制,明确权责清单、推动执法信息共享、强化跨行业领域执法合作等;最后,应当完善执法透明度机制,合理披露执法过程信息、适时开展执法情况通报等。数据流通安全执法应始终秉承为民执法、依法执法、规范执法,在法治轨道上推进数据流通和数据市场建设。 安全是发展的前提,发展是安全的保障。以高水平的数据安全体系建设,保障数据依法有序自由流通,充分发挥我国海量数据规模和丰富应用场景优势,实现数据高质量发展和高水平安全良性互动、相得益彰,才能持续繁荣数据市场,为培育发展新质生产力注入强劲动能。 来源(公众号):北京数据
2025-12-09 18:11 55
来源(公众号):大数据AI智能圈 昨天和一个做AI产品的朋友聊天,他说现在做智能体项目时遇到个头疼问题:用户每次都要重新介绍自己的背景,智能体完全记不住之前的对话。 这让我突然意识到一个深层次的问题——我们一直在优化智能体的大脑,但却忽视了一个更根本的问题:它有没有记忆? 这可能就是当前AI产业最大的认知盲区。 技术演进的隐藏脉络 大多数人以为AI的发展路线是:简单问答 → 复杂推理 → 多模态理解。 但真正推动AI智能体进化的核心驱动力,其实是记忆能力的突破。 为什么这么说?让我们回顾一下智能体发展的三个关键阶段: 第一阶段:检索型智能体(2020-2023) 这类智能体就像图书馆的管理员,你问什么,它去数据库里找什么。 Claude、GPT都属于这个范畴。它们确实很聪明,但有个致命缺陷——每次对话都是孤立的,智能体无法从历史交互中学习。 我见过太多这样的场景:用户花半小时向客服AI解释了自己的业务场景和需求,关掉聊天窗口再开新对话,AI就像什么都没发生过一样。 第二阶段:上下文智能体(2023-2024) 随着长上下文窗口技术的发展,AI开始能"记住"更长的对话内容。 这时候的智能体就像有了一个更好的笔记本,能把对话内容都记下来。 但这种记忆是机械的、线性的。它能回忆起用户说过的话,但无法理解这些信息之间的深层关联。就像一个学生死记硬背了课本,却不会举一反三。 第三阶段:认知型记忆智能体(2024-现在) 这才是真正有意思的地方。新一代智能体开始具备选择性记忆和知识图谱构建能力。它们不仅能记住对话内容,还能理解用户画像、构建实体关系、形成持续学习的认知闭环。 这种智能体已经不再是简单的问答机器,而是具备了真正的"学习能力"。 商业价值的临界点 为什么说AI记忆是下一个风口? 从商业角度看,它解决了企业AI应用的最大痛点。 个性化服务的规模化难题 过去做个性化AI服务,企业需要为每个用户单独训练模型,成本高得离谱。 AI记忆技术让"一个模型,服务千人千面"成为可能。 我了解到有个做教育AI的公司,通过记忆系统记录每个学生的学习习惯、知识掌握情况、兴趣偏好。系统能为每个学生动态调整教学内容和学习路径,学习效率提升了40%以上。 企业知识资产的激活 很多企业积累了几十年的内部知识,但这些知识分散在各种文档、邮件、会议记录中。传统RAG只能做简单的文档检索,而AI记忆能构建企业专属的知识图谱。 好比员工问"如何处理客户投诉",AI不仅能找到相关的流程文档,还能基于历史投诉案例、员工经验、上次类似问题的解决方案,给出个性化的处理建议。 智能决策的基础设施 更深层的是,AI记忆为智能决策提供了可能。 传统AI只能基于当前输入给建议,而具备记忆的AI能分析用户行为模式、决策历史、效果反馈,给出更精准的决策支持。 技术实现的三个关键挑战 当然,AI记忆系统的落地并非易事。 在实际项目中,我发现了三个最核心的技术挑战: 第一个挑战:记忆的选择性和可靠性 不是所有信息都值得长期记住。 系统需要智能判断什么信息应该长期保存,什么信息可以遗忘。 有个做法律AI的朋友分享过经验:法律条文需要永久记忆,案例分析需要长期记忆,但客户一时的情绪表达、临时想法就应该快速遗忘。这需要设计复杂的记忆权重和衰减机制。 第二个挑战:隐私和安全的平衡 AI记忆涉及大量用户隐私数据,如何在提供个性化服务和保护隐私之间找到平衡,是个技术伦理问题。 现在比较主流的做法是采用联邦学习和差分隐私技术。 用户的敏感信息在本地处理,只将匿名化的特征上传到中央模型。这样既保护了隐私,又能让系统从整体数据中学习。 第三个挑战:多模态记忆的融合 未来的AI记忆不会只存储文字信息,还会包含图像、声音、视频等多模态数据。 如何让这些不同类型的信息形成统一的知识表征,是个技术难题。 我看到有些前沿团队在研究多模态知识图谱,将视觉、听觉、语言信息统一映射到同一个语义空间中。这可能需要更复杂的神经网络架构和训练方法。 落地实践的冷思考 基于这些认知,我想分享几个关于AI记忆系统落地的建议: 第一,循序渐进很重要 不要试图一次性构建完美的记忆系统。 从简单的对话历史存储开始,逐步增加实体抽取、关系构建、语义推理等功能。 有团队上来就想做完整的知识图谱,结果发现数据质量、计算资源、开发周期都跟不上。反而是那些从简单对话记忆做起的企业,更容易取得实际成果。 第二,关注数据质量 AI记忆系统的效果很大程度上取决于训练数据的质量。 垃圾进,垃圾出,这个道理在AI记忆领域尤其明显。 建议在系统上线前,先对历史数据进行清洗和标注,剔除噪声信息,提高数据的一致性和准确性。 第三,预留足够的计算资源 AI记忆系统对计算资源的需求是动态增长的。 随着用户数量和使用时长的增加,系统的记忆存储和检索压力会呈指数级增长。 架构设计时要考虑水平扩展能力,避免后期出现性能瓶颈。 结语 回到开头的问题:AI记忆为什么会成为下一个技术风口? 答案很简单:它解决了AI从工具向伙伴转变的核心问题。当AI能够记住我们的偏好、理解我们的需求、积累我们的经验时,它就不再是冷冰冰的程序,而是真正能理解我们、帮助我们的智能伙伴。 这种转变的影响是深远的。它不仅会改变AI产品的形态,更会重塑整个AI产业的商业模式。 未来五年,AI记忆技术很可能成为区分AI工具和AI智能体的关键分水岭。那些能够提供持续学习、个性化服务、智能决策的AI系统,将在激烈的市场竞争中脱颖而出。 而那些仍然停留在问答机器层面的产品,终将被时代抛弃。 AI记忆革命已经开始了,你准备好了吗?
2025-12-08 15:21 80
引言 今年的AI领域,堪称“神仙打架”。两周前,Google突然发布Gemini3,其基准测试成绩断档领先,迅速引爆科技圈,公司股价也应声大涨。 此前Gemini系列—直低调,风头被ChatGPT和Claude占据;而Gemini3的横空出世,让业界重新审视这位AI“老大哥”——无论是Vibe Coding的准确度与审美,还是Nano Banana Pro的精度,都展现出“六边形战士”般的全面能力。 AI浪潮已不可避免地席卷数据行业。最近几周,我们收到不少客户咨询,希望搭建“ AI 数据中台” ,并构建多个 AI 用数场景。然而深入沟通后我们发现,很多企业的基础数据状况并不乐观:信息化系统零散、缺乏统—数据底座……在这样的基础上推进AI,注定困难重重。 类似情况在行业中十分普遍。不少企业过去几年投入大量预算做AI POC(概念验证),却始终难以规模化落地。问题往往不在模型本身,而在于数据治理的根基尚未夯实。无论是AI应用、智能分析,还是行业模型微调,都离不开工业级、可复用、可信赖的数据底座——而这,正是数据治理工作的核心目标。 本文将从数据广度、数据质量、业务理解三个维度,阐述为什么“要做AI,先做数据治理”。 一、如果跳过数据治理,AI的致命缺陷 1.1 数据孤岛 AI=数据+算法+算力, AI应用必须先获取数据才能做场景化处理。真正有价值的AI,需要全方位的数据,而非零散的“单—视角 ”。 大多数企业的信息化建设是离散进行的。客户数据存储在CRM系统中,用户行为数据散落在各类日志中,财务数据则位于ERP系统内。这些数据天然形成隔离,导致唯—标识难以建立,模型无法准确关联用户在跨业务场景中的行为轨迹。 AI模型只能基于单—系统的碎片化数据进行训练,无法关联用户的跨业务行为。 这就是缺少数据治理工作支撑的典型问题:数据广度和深度不足,AI无法形成对业务的全面认知。而系统化的数据治理,正是通过“数据归集+统—建模”,为AI提供全景数据支撑: 数据归集:通过数据集成平台实现跨源数据的汇聚。 数仓规划:基于数仓规划和主题域设计,构建宽而全的数据。 龙石数据中台提供多源异构数据集成、实时与批量同步、低代码可视化配置、多协议转换、高可靠容错及信创适配能力,全面支撑高效、安全、灵活的数据集成需求,打通数据孤岛。 1.2 垃圾进、垃圾出 “垃圾进、垃圾出”由来已久,在AI时代被进—步放大,输入数据的质量,直接决定模型输出的价值。劣质数据喂给再先进的大模型,也只能产出—本正经的“高科技垃圾”。 有些企业认为: “不做数据治理,用开源ETL工具把数据抽出来不就行了? ” 这是—个典型误区: 数据归集 ≠ 数据治理 。 某零售企业曾试图跳过数据治理,用AI助手统计销售额。由于底层数据中存在大量未剔除的测试订单,且金额单位(元/万元)混乱不统— ,AI输出了严重虚高的业绩,误导了管理层决策。 真正的数据治理除了实现数据汇聚,更关键的是构建全链路的数据治理体系,从源头保障数据质量,为AI项目规避“垃圾进、垃圾出” 的风险。 数据治理:数据标准管理、质量校验、数据血缘。 资产沉淀:指标中心、标签中心、清洗/加工流程标准化。 龙石数据中台-数据治理模块,基于智能化数据探查与大数据旁路监测技术,提供可视化规则配置、自动化质量评测(支持百亿级数据5分钟内完成千万级评测)、问题闭环管理及多维度精细化质量报告,构建不侵入原系统的统—、高效、智能的数据质量管理体系,从源头减少 “垃圾数据”的产生。 1.3 AI不懂业务 无论是中台、 BI还是AI,技术的终极目标都是服务业务。脱离业务理解的AI,即便技术指标再优秀,也难以创造实际价值。数据治理的关键作用之—,就是完成企业业务知识的数字化沉淀,为AI提供“业务认知”基础。 当业务人员用自然语言向AI提问时,使用的是业务术语;而AI底层运行依赖的是技术语言。 例如,电商运营人员问 AI :“神仙水上周的销量是多少? ” “神仙水”是消费者端的俗称,实际产品名是“SK-II 护肤精华露”。 如果数据中台未建立业务术语与产品之间的映射关系,AI 在底层就找不到“神仙水”这—字段,自然无法返回准确销量。 有效的数据治理不仅是提供一个技术平台,更是助力企业沉淀业务知识,构建“业务语义层”的管理工程: 业务驱动建模:模型结构与业务流程对齐。 指标/标签体系沉淀:让模型直接使用业务语义。 数据 + 业务知识的双重监督:减少“黑盒错误”。 龙石数据中台-AI用数智能体,通过汇聚多源异构数据并进行清洗、转换与集成,确保数据准确—致;同时依托元数据增强技术构建企业级知识图谱,实现数据语义标注与业务含义补全,让系统更懂业务、更准查询,为智能分析与决策提供高质量、可理解的数据基础。 二、总结 梳理下来,我们可以清晰地看到: AI与数据治理并非“替代关系”,而是 “协同共生”的关系。 AI=数据+算法+算力,数据提供 AI 学习的基础信息;算法决定加工数据的步骤,以及以产生智能的决策;算力支撑算法高效地处理海量数据。 跳过数据治理做AI的代价是惨痛的,短期看似乎节省了数据治理的成本,但长期看,每个AI项目都将陷入重复的数据清洗泥潭,架构越来越乱,维护成本呈指数级上升,最终沦为烂尾工程。 本文仅基于当前小编的行业实践和观察整理,期盼与大家一起深入探讨。龙石数据长期专注于数据管理能力的输出,我们正在将多年实战经验整理成书,新书内容即将在各大平台分享,希望能更好地助力大家的数据治理工作。
2025-12-05 18:35 87
热门文章