文 | 中国信息通信研究院副院长 魏亮 习近平总书记指出,数据是数字经济时代的基础性资源、重要生产力和关键生产要素。近年来大模型技术不断取得突破,其中大规模高质量训练数据的投入,起到了关键作用,也进一步将“以数据为中心的人工智能”推向一个新阶段。 近期发布的 Deep Seek 系列模型训练中大量高质量推理数据集的使用更加凸显了高质量数据的重要性,而大模型要与垂直领域深度融合同样需要高质量数据集的支撑。国家数据局围绕高质量数据集建设相关工作开展了一系列工作部署。2025年2月19日,高质量数据集建设工作启动会在北京组织召开,国家发展改革委、教育部、科技部、工业和信息化部等27个部门参会。下一步,高质量数据集建设工作将积极推进落实“人工智能+”行动,加快推动形成一批标志性成果,赋能行业高质量发展。 01 准确认识高质量数据集建设取得的进展和面临的挑战 高质量数据集构建是一项复杂而关键的任务,需要了解模型应用场景和需求,进而开发、构建和维护数据资源,提供持续有效的高质量数据集。当前,在顶层设计层面,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通,高质量数据集建设取得积极进展。在地方层面,湖北、江苏、浙江等多省市明确了建设高质量数据集的数量、时间及激励机制; 湖北省数据局发布首批10个高质量数据集,推动构建高质量“数据集市”;苏州市发布首批30个工业制造、交通运输、金融服务等高质量数据集。在行业层面,智源研究院发布全球最大的多行业中英双语数据集IndustryCorpus 1.0,包含3.4TB开源行业预训练数据,覆盖18类行业;中国信通院推出我国首个面向行业的人工智能数据集质量评估体系,为数据质量提供客观、公立的评价能力和方法体系;北京国际大数据交易所累计发布约300个高质量数据集,形成10余个应用领域数据资源地图。与此同时,还应看到目前高质量数据集建设还存在不少挑战。 一是政府和业界不清楚行业高质量发展需要什么样的数据。一方面,行业大模型数据具有需求多样性的特点。不同行业部门对模型场景数据的需求各不相同,涉及分析、决策和生成不同的任务需求,这种多样性要求在人工智能高质量数据集建设中,必须深刻理解业务场景。另一方面,行业大模型数据具有需求复杂性的特点。大模型涉及预训练、微调、反馈强化学习等不同阶段,不同阶段都涉及到数据训练构建和优化策略,需要多个数据源、多种数据类型融合对齐,这增加了数据处理和管理的复杂度。 二是行业企业不知道高质量数据集如何构建。构建大模型数据集主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据大模型数据集具有的规模大、多样性足、行业垂直属性强等特点进行针对性的技术研发和适配。但是,行业企业对于数据的理解程度不同,面向大模型的数据治理方法和经验不足,传统的数据处理工具和技术无法满足大模型需求,需要引入先进的数据处理技术和工具提高数据处理效率和准确性。 三是业界不了解行业数据集质量如何评价。不同行业、不同数据源的数据完整性和准确性可能参差不齐,严重影响大模型的训练效果和预测准确性,造成训练资源浪费。此外,训练数据获取往往需要耗费大量时间和经济成本,包括数据收集、清洗、标注等环节。在行业大模型的实际建设中,对于构建和采买的数据没有统一的衡量标准,造成无法有效获取高质量数据集资源。 02 分类推动高质量数据集供给体系建设 数据之于大模型就像石油之于汽车,汽车无法直接使用原油,原油只有经过一系列复杂的过程炼化成汽油后,才能给汽车使用。同样,海量原始数据需要经过“炼化”形成高质量数据集,才能真正有效地用于大模型训练。行业大模型训练所需数据集,既要覆盖行业通识,也要蕴含专门知识。其中,通识数据是通用大模型能力提升的基础,行业通识数据是行业大模型训练的基底,行业专业数据是企业推动行业大模型的应用、部署私域模型能力的底座。为此要根据急用先行、分类推进、合理使用的原则,推进高质量数据集建设。 一是加快通识类高质量数据集建设。通识类高质量数据集是指由政府机构、科研机构、开源社区或大型互联网企业等公开数据构建的数据集,具有广泛性和通用性,覆盖多个领域,如自然语言处理、计算机视觉、语音识别等,能够为企业提供丰富的训练资源和基准测试环境,有助于行业大模型快速验证算法、提升模型的基础能力。此外,公共数据集还有助于促进跨行业、跨领域的数据共享和知识融合,推动行业大模型的持续进步和快速发展。 二是加快行业通用类高质量数据集建设。行业通用类高质数据集,是指针对某一特定行业或领域知识的具有事实性数据集,具有高度的专业性和针对性。这类数据集通常包含某一特定行业特有的知识、术语、场景和业务流程等信息,对于训练出适用于行业应用的大模型至关重要,能够覆盖行业领域专业知识,提高模型在行业通识领域的泛化能力。 三是加快行业专用类高质量数据集建设。行业专用数据集,是指根据行业企业自身业务场景和需求收集的数据集。这类数据集通常包含行业企业内部业务流程、用户行为、产品信息等关键信息,具有针对性和定制化的特点,能够为行业企业提供高度个性化的训练数据资源,构建专属大模型。通过行业企业场景化数据集的训练,可以定制化地优化大模型算法和参数设置,深度挖掘内部数据价值,实现模型的定制化优化与业务高度适配,使其更好地服务于业务需求和发展战略,带来更加精准和有效的业务洞察和决策支持。 03 加快提升高质量数据集构建能力 推动高质量数据建设,是一项系统工程,核心是提升行业数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,需要系统性地加强能力建设。 一是完善行业数据集管理体系。编制行业数据资源目录,细化数据集的分类与分级,明确结构化、半结构化及非结构化等多种数据类型,按照数据清洗处理程度(手动、半自动至全自动),开展数据集资源管理。构建高效协同的组织架构,确保从数据采集到模型应用的每一步都能够得到有效管理和支持,建立数据治理与模型开发的协同架构。围绕数据技术、平台、应用及安全,制定详尽标准,涵盖数据生产、服务、质量评估及数据集管理。培养跨学科、跨专业的数据工程团队,强化数据科学与模型训练能力,为大模型的成功部署与持续优化奠定坚实基础。 二是提升行业数据集开发维护能力。着力提升数据采集汇聚、数据预处理、数据标注等关键环节,以及指令微调、反馈对齐关键阶段的技术工具能力。数据采集汇聚需具备高效的数据抓取、清洗与整合能力,确保数据的全面性和多样性;数据预处理阶段涵盖数据清洗、去噪、归一化等技术,以提升数据质量;数据标注环节要求深入理解数据特性,掌握高效的自动化和智能化标注技术。行业大模型数据集主要应用于指令微调阶段和反馈对齐阶段,通过有标注的指令数据对模型进行精细化调整,增强其任务执行能力,利用用户反馈优化模型提升实际应用效果。此外,还需要制定详细的数据技术处理要求和方案,以保证不同阶段的数据分布一致性。 三是增强行业数据集质量控制。在质量管理方面,从流程管理、质量评估和组织规范三方面对大模型数据集生产到管理的各环节进行能力规范和等级评定,从源头上确保数据集高质量生产和管理。在质量评估方面,针对行业大模型对数据质量进行更多维度的要求,提升数据集在模型应用上的实用效果。设计具体规则和方法,采用自动化标注和人工抽样的方式对数据集自身质量进行前置检测,采用模型验证和消融实验的方式对数据集在大模型的应用效果进行后置检测,通过模型效果反馈进行数据集质量优化。 做实、做深、做细高质量数据集建设工作,就要深入贯彻落实党中央、国务院决策部署,做好系统谋划、加强统筹协调、做好部门协调。此次高质量数据集建设工作启动会,为推动相关工作发出了动员令、吹响了集结号。相信通过国家数据局协同行业主管部门的政策牵引和政、产、学、研、用多方协同,我国高质量数据集建设步伐将越来越快,也必将为人工智能赋能实体经济注入强劲动力。 来源(网站):国家数据局
2025-03-13 10:12 114
在数字化浪潮的推动下,电子政务作为提升政府行政效率和公共服务能力的重要手段,正日益受到广泛关注。随着电子政务的不断深入,政务数据的积累量也在迅速增长。然而,数据的快速积累也带来了诸多挑战,尤其是数据质量问题,成为制约电子政务进一步发展的瓶颈。这不仅影响了政府决策的准确性和效率,也可能对公共服务产生负面影响。因此,如何有效提升政务数据质量,成为当前亟待解决的问题。 一、政务数据质量管理的重要性与现状 政务数据的质量管理是确保电子政务系统稳定运行和高效服务的基础。高质量的数据能够为政府决策提供准确依据,优化资源配置,提升公共服务质量。反之,低质量的数据则可能导致决策失误,影响政府公信力,甚至造成资源浪费和损失。尽管我国政务数据质量管理已取得一定成效,但实际操作中仍面临诸多挑战。数据来源复杂、质检工具不标准、人员素质参差不齐等问题,使得政务数据质量管理工作困难重重。此外,随着数据量的持续增长,传统质检方式已难以满足需求,急需自动化、智能化的质检工具来提高质检效率。 二、政务数据质量管理的新挑战 当前,政务数据质量管理面临着多重挑战。一方面,数据来源的多样性和复杂性要求质检规则能够更加灵活、智能地适应不同情况;另一方面,政务数据的敏感性和重要性也对质检工具的安全性和可靠性提出了更高要求。同时,随着电子政务的不断发展,政务数据质量管理还需要建立起长效机制,以持续监测和改进数据质量。 三、破局之道:“AI+准度领航” 面对政务数据质量管理的新挑战,国脉互联提出“AI+准度领航”数据质控合规系统,以“构筑质量屏障,守护合规标准”为目标,建立持续、系统的数据质量检测机制,实现从数据精准定位到数据质量治理的全流程精细化管控,确保数据的准确性、完整性、一致性、规范性、时效性和可靠性,全面强化数据合规管理,确保数据合法合规使用。通过“AI+准度领航”,我们可以实现对数据的智能化摸底、精准制定规则、高效质检与评估,以及建立长效机制。 1.智能化摸底 “AI+准度领航”拥有强大的数据处理能力,能够全面梳理来自各类源头的数据。它可以有效地对数据进行分类,帮助我们清晰地识别出哪些数据尚未经过质检,哪些数据已经过质检但质量未达到预期,以及哪些数据属于高质量数据。这种智能化的摸底过程,为后续的数据质检工作奠定了坚实的基础,使质检工作能够更加精准地针对存在的问题展开。 2.精准制定规则 结合国家数据管理相关标准及行业特定要求,“AI+准度领航”为不同的数据集量身定制质量标准。它充分利用AI大模型和深度学习技术,深入剖析数据特性,从而制定出既符合统一标准又满足本地实际需求的检测规则,确保数据质量的准确性与可靠性。 3.高效质检与评估 “AI+准度领航”具备强大的自动化质检能力。它能够根据制定的检测规则对相关数据进行自动化质检,快速识别问题数据并自动生成详细的评估报告。这提高了质检效率,还为各部门提供了明确的改进方向。 4.建立长效机制 “AI+准度领航”不仅关注当前的质检需求,还着眼于未来的可持续发展。它具备实时动态检测的能力,能够同步生成实时检测报告,快速识别并处理任何潜在的数据问题。通过设置预警机制和定期审查调整检测规则,“AI+准度领航”助力政务数据质量管理实现持续优化和提升。 四、“AI+准度领航”的价值 “AI+准度领航”以其独特的设计思路和预期效果,与当前政务数据质量管理的需求高度契合。它不但能够解决数据来源复杂、质检规则不灵活等问题,还能够提高质检效率、降低人为错误、增强数据安全性。通过“AI+准度领航”的智能化摸底功能,政府部门能够全面评估各类数据的质量,准确区分出质检质量不高的数据,从而为后续的数据质检工作提供明确的方向和重点。 这种精准的质检模式,有助于政府部门及时发现并修正数据中的问题,确保数据的准确性和可靠性。同时,“AI+准度领航”还能为政府部门提供科学、高效的决策支持,助力电子政务的健康发展。通过持续监测数据质量,政府部门可以更加及时地调整政策、优化服务,从而提高公共服务的质量和效率。 五、结论 综上所述,面对政务数据质量管理的新挑战,“AI+准度领航”以其独特的设计思路和预期效果,为电子政务的健康发展提供了新的可能性。我们期待着这款工具能够尽快落地应用,为政府部门带来更加精准、高效的数据质量管理体验。同时,我们也相信,在未来技术的不断进步和应用的深入下,“AI+准度领航”将在政务数据质量管理领域发挥更加重要的作用。 来源(公众号):国脉研究院
2025-03-05 09:56 101
基于交易产品和业务场景,为数据产品提供数据质量评估报告和提升建议,及交易后质量追踪,促进数据要素流通,满足数据消费者的需求,为数据资产评估提供依据。
2024-08-08 09:34 653
数据质量规则是一组定义和规范,用于指导数据的收集、处理和存储的过程。它要求参与者遵守一定的标准来确保数据的有效性、准确性、完整性和一致性。
2024-07-17 09:44 979
现阶段,我国数字政府的基础建设取得了较大的进展,伴随着基础库、交换平台、资源目录、城市大脑等数字政府支撑平台的深化应用,数据量快速增长,数据量的增长必然带来数据质量管理的问题。本文通过对政务数据质量管理体系和工作机制的研究,提出现状评估、问题溯源、质量修复、考核评价的四步走解决方案,结合管理制度、工作指南和考核标准,以及基于智能化的数据探索技术,明晰政务数据质量管理的架构、流程、机制、评价指标、规章制度等工作内容[1],建立健全数据质量管控机制,指导数据质量提升,通过数据质量管理激活数据资源价值[2],为数字政府建设提供良好的数据支撑。
2022-07-06 16:23 1439
热门文章