DEEPSEEK作为智能一款助手,在数据治理体系中具有深远的影响。它通过提供智能化、自动化和高效化的解决方案,推动企业在数据治理变革与领域的优化。以下是EPSEEK对数据治理体系影响的多角度分析: 一、战略层面:推动数据治理目标的明确与实现 1. 数据价值挖掘 DEEPSEEK强大的数据分析通过能力,帮助企业识别数据中的潜在价值,并将其转化为可操作的业务洞察。这有助于企业在制定数据治理战略时更加聚焦于核心目标。 2. 数据驱动决策 DEEPSEEK支持实时数据分析和预测建模,为企业提供科学的决策依据。这使得数据治理不仅仅是技术层面的工作,而是成为企业战略的重要组成部分。 3. 数字化转型助力 DEEPSEEK通过智能化的数据治理工具,帮助企业加速数字化转型进程。它能够将分散的数据资源整合为统一的数据资产,为企业的数字化战略提供坚实基础。 二、组织层面:优化数据治理的组织架构与协作 1. 跨协作部门 DEEPSEEK支持多源数据的整合与分析,打破了传统数据治理中各部门之间的信息孤岛。通过统一的数据平台,企业可以跨实现部门的高效协作。 2. 角色分工优化 DEEPSEEK通过自动化工具(如数据清洗、标准化、验证等),减少了人工干预的需求。这使得数据治理团队能够将更多精力投入到战略规划和高价值工作中。 3.数据文化塑造 DEEPSEEK通过提供直观的数据可视化和报告功能,帮助企业培养“以数据为中心”的文化。这种文化能够员工推动更加主动参与地数据工作治理。 三、制度层面:完善数据治理的政策与流程 1. 数据质量管理 DEEPSEEK通过内置的数据清洗、去重和标准化功能,帮助企业建立完善的数据质量管理流程。这使得企业能够更好地满足行业标准和监管要求。 2. 数据安全与隐私保护 DEEPSEEK支持数据加密、访问控制和隐私保护技术(如匿名化和脱敏)。这有助于企业建立符合法规(如《个人信息保护法》、GDPR等)的数据安全制度。 3. 合规与审计 DEEPSEEK提供实时监控和审计功能,帮助企业记录数据处理的全过程。这不仅提升了企业的合规性,还为审计提供了可靠的支持。 四、执行层面:提升数据治理的效率与效果 1. 自动化工作流 DEEPSEEK通过自动化工具(如数据清洗、转换、加载等),显著提升了数据治理的效率。这使得企业能够更快地完成数据整合和分析任务。 2. 实时监控与反馈 DEEPSEEK支持实时数据监控和异常检测功能。这使得企业能够在问题发生时快速响应,避免潜在风险对企业造成重大影响。 3. 持续改进机制 DEEPSEEK通过机器学习和自然语言处理技术,能够不断优化自身的算法和模型。这使得数据治理体系能够随着业务需求的变化而持续改进。 五、技术层面强化:数据治理的技术支撑 1. AI与大数据技术融合 DEEPSEEK基于先进的AI技术和大数据分析能力,能够处理海量、复杂的数据源。这使得企业在面对多样化数据时更具技术优势。 2. 灵活的扩展性 DEEPSEEK支持多种数据源的接入和集成(如结构化数据、非结构化数据等),并且能够根据企业的实际需求进行灵活配置。这使得治理体系数据更具扩展性和适应性。 3. 云服务与安全性 DEEPSEEK依托云服务提供技术支持,确保企业在享受高效计算资源的同时,还能保障数据的安全性和可靠性。 六、其他影响:推动数据治理体系的创新与变革 1. 降低治理成本 DEEPSEEK通过自动化和智能化工具,显著降低了企业在数据治理中的时间和人力成本。这使得中小企业也能够轻松实现高效的数据治理。 2. 提升用户体验 DEEPSEEK通过自然语言处理技术,能够更以贴近用户的方式提供数据服务。这使得数据治理体系更加业务贴近需求,提升了用户的满意度。 3. 应对未来挑战 DEEPSEEK通过持续的技术更新和功能优化,帮助企业应对未来的数据治理挑战(如伦理AI、数据主权等)。这使得企业的数据治理体系更具前瞻性和可持续性。 总结 DEEPSEEK对数据治理体系的影响是全方位的。它不仅提升了数据治理的效率和效果,还推动了企业在战略、组织、制度和技术层面的变革与创新。通过智能化和自动化的手段,DEEPSEEK帮助企业构建了一个更加高效、安全和可持续的数据治理体系,为企业的数字化转型提供了强有力的支持。 来源(公众号):数据治理体系
2025-02-08 10:02 249
在数字经济飞速发展的今天,数据资产已成为推动各行各业转型升级的重要力量。特别是在低空经济与人工智能(AI)领域,数据资产的作用尤为显著。它不仅促进了这两个领域的深度融合,还推动了相关产业的创新发展,形成了独特的“飞轮效应”。 一、数据资产:低空经济的新引擎 低空经济依托低空空域资源,以民用有人驾驶和无人驾驶航空器飞行活动为牵引,辐射带动相关领域和产业链融合发展。随着低空经济的不断发展,海量的数据资源随之产生,包括飞行数据、传感器数据、物流数据等。这些数据通过大数据技术和AI技术进行处理和分析,能够优化低空空域中的交通流量、分析无人机的飞行路径、提高飞行任务调度的精确度和效率。例如,在物流配送领域,借助先进的数据处理技术,可以精准规划出最优的低空飞行路线,从而大幅降低运输成本,同时显著提高配送的时效性。此外,通过对飞行数据的分析,还可以预测飞行器的维护需求,提前进行故障排查,确保飞行的安全性。数据资产在低空经济中的应用不仅限于此。在智慧农业、应急救援、城市治理等领域,低空数据同样发挥着重要作用。通过收集和分析这些数据,可以实现对农作物生长情况的实时监测、对灾害现场的快速响应以及对城市交通流量的智能管理。 二、AI技术:数据资产的“加速器” AI技术在低空经济中的应用,进一步放大了数据资产的价值。AI技术以其强大的数据处理和分析能力,为低空经济提供了更精准、更高效的解决方案。 在无人机领域,AI技术可以实现无人机的自主飞行、智能避障和精准导航等功能。通过对飞行数据的实时分析,AI算法可以不断优化无人机的飞行路线和速度,提高飞行的安全性和效率。同时,AI技术还可以应用于无人机的维护和故障诊断,通过数据分析预测无人机的寿命和潜在故障,提前进行维护或更换部件。 此外,AI技术还可以与低空经济中的其他技术如5G、物联网等深度融合,打造更智能、高效的低空经济生态系统。例如,基于AI的无人机编队表演、空中广告等创新应用不断涌现,为低空经济注入了新的活力。 三、数据反哺:形成“飞轮效应” 在低空经济与AI技术的融合发展中,数据资产的作用不仅仅是作为输入信息,更在于其能够通过反馈机制不断优化和提升系统的性能。这种数据反哺的效应,形成了独特的“飞轮效应”。 一方面,低空经济产生的海量数据为AI技术提供了丰富的训练素材和验证环境。通过不断学习和优化,AI算法的性能不断提升,为低空经济提供了更精准、更可靠的解决方案。 另一方面,AI技术的应用又进一步推动了低空经济的发展和创新。通过智能化的管理和决策支持,低空经济的运行效率和安全性得到了显著提升。同时,AI技术还催生了新的商业模式和产业形态,为低空经济注入了新的增长点。 这种数据反哺的“飞轮效应”,不仅推动了低空经济与AI技术的融合发展,还促进了相关产业的转型升级和创新发展。随着数字技术的不断进步和应用场景的不断拓展,这一效应将更加明显和深远。 四、展望未来:数据资产驱动的低空经济新时代 展望未来,数据资产将继续驱动低空经济进入一个新的发展阶段。随着低空空域资源的进一步开发和利用,以及AI技术的不断创新和应用,低空经济将呈现出更加多元化、智能化的特点。 一方面,低空经济将不断拓展新的应用场景和商业模式。例如,在旅游观光、空中拍摄等领域,低空数据将为用户提供更加个性化、智能化的服务体验。同时,随着低空物流、空中出行等新兴业态的发展,低空经济将成为推动产业升级和消费升级的重要力量。 另一方面,数据资产的安全和保护将成为低空经济发展中的重要议题。随着数据量的不断增加和数据应用的不断深化,数据安全和隐私保护问题将日益凸显。因此,加强数据安全管理、完善数据保护法规体系将是低空经济持续健康发展的关键保障。 综上所述,数据资产在低空经济与AI技术的融合发展中发挥着至关重要的作用。它不仅推动了这两个领域的深度融合和创新发展,还形成了独特的“飞轮效应”,为相关产业的转型升级和创新发展提供了强大动力。展望未来,随着数字技术的不断进步和应用场景的不断拓展,数据资产将继续驱动低空经济进入一个新的发展阶段,为经济社会发展注入新的活力。 来源(公众号):AI战略数字转型
2025-02-06 10:05 186
引言 当前,我国数据资源流通的“采-存-管-用”规模已基本形成,但“供-流-用-管”等环节仍存在诸多问题,具体问题如下: 数据资源供给质量参差不齐 数据资源供给水平受到数据质量、规模、结构以及采集和治理能力等多方面因素影响。不同地区、不同行业和机构在数据来源以及数据采集处理技术上存在显著差异,导致数据资源质量参差不齐,影响数据流通效率和效果。例如,一些机构或企业拥有高质量、大规模、结构化的数据资源及先进的数据采集和治理能力,而另一些则相对薄弱。这种不均衡现象在金融、医疗等领域表现得尤为突出。 数据资源流通路径不畅 传统数据流通方式面临安全与效率问题,新技术虽具潜力但尚不成熟。传统数据流通方式往往以数据包形式或明文数据API接口对接,数据安全风险高,难以保障数据所有者利益,且在数据实时处理、分析预测等方面存在局限性。例如物流行业需实时数据来优化配送路径和仓储管理,但传统技术面对海量数据效率低下,“双十一”期间快递公司因传统数据流通模式无法满足实时处理需求,导致配送效率低下、客户体验不佳。当前,隐私计算、区块链等新兴技术虽能保障数据安全流通,但技术互联互通仍面临挑战。 数据资源利用不易 数据使用方难以精准获取高价值数据且难以安全合规使用。数据供需信息不对称、数据深度分析能力不足等,导致数据使用方难以从海量数据中获取高价值数据,同时数据质量参差不齐、对原始数据深加工不足等问题导致数据整体价值不高。此外,数据安全与隐私保护技术的不成熟也制约了数据资源的高效利用。 数据安全监管不力 随着云计算、大数据及物联网技术的应用,数据生成量和存储量急剧增加,安全风险也不断增加,同时人们对数据隐私保护及安全合规需求提高,需完善法律法规并采用更高级智能的数据安全技术应对。 数据资源流通顶层理论框架设计 为了解决数据资源流通中存在的问题,实现数据资源价值最大化,迫切需要构建一套科学合理、全面系统的数据资源流通顶层理论框架。本文从全局角度出发,研究分析数据资源流通利用过程中所涉及的关键角色、流通模式等,搭建一个涵盖数据“供-流-用-管”全生命周期的顶层理论框架,为后续数据空间建设提供理论参考。 数据资源流通关键环节分析 基于数据资源流通“供得出”“流得动”“用得好”“管得住”“保安全”的需求,分析数据资源“供-流-用-管”环节涵盖的关键数据行为,以及为实现这些数据行为所需要的技术路径支撑。 供得出:数据供得出的前提是“有数”、关键是“质量”。自动识别、自动导入、自动录入、数据接口等数据采集技术可支持数据快速、高效地采集;数据清洗、数据结构化、数据标准化、数据标注、数据自动分类分级、多元异构数据融合等数据治理技术可提升数据质量;湖仓一体架构技术、云边协同等数据存储技术可保证数据高效、快捷、安全地存储和服务;最后通过编目技术等生成数据目录,为数据供出做好准备。 流得动:流得动的前提是数据要有价值,关键是要有一套可信的数据资源流通环境。数据合成、数据编织、数据分析等数据加工分析技术可有效地挖掘数据价值;数据标识、区块链、隐私计算、空间连接器、数据加密等数据资源流通技术可以确保数据资源流通环境的安全可信。 用得好:用得好的关键是数据产品与需求实现精准对接。分布式目录、数据搜索等发布索引技术,以及数据封装、数据分析、大模型等分析应用技术可支持数据产品价值释放。 管得住:管得住的核心是“安全合规”。多因素身份认证、数字签名等可信身份认证技术,信源加密、信道加密等可信传输技术,区块链、存证和证据交叉认证等存证与追溯技术,数据登记、跨域管控、数据安全审计、合规审计等监管与审计技术,共同支持数据资源流通全链条合规溯源。 数据资源流通关键角色定义 在数据资源流通面临诸多挑战的情况下,明确数据流通参与方角色职责对于构建有效的数据流通体系至关重要。本文通过研究各参与方在数据资源流通各环节的职责,设计划分五大关键角色:数据提供方作为数据源头,其数据质量和管理水平直接影响后续流通环节;数据服务方通过专业服务挖掘并提升数据价值;数据运营方则搭建平台促进交易流通;数据使用方在合规使用数据的同时反馈问题,形成新的数据资源回流给数据提供方;数据监管方监督整个流程保障权益。这些角色相互协作、相互制约,共同推动数据资源流通利用。在实际操作中,角色之间关系并非一成不变,一个组织可能承担多个角色,并且随着市场发展还可能出现新的角色。 数据提供方:负责收集、生成和管理原始数据,确保数据完整性、准确性和数据质量。制定数据共享和使用的规则条件,遵守数据安全和隐私保护的相关法规。 数据服务方:提供数据清洗、标准化、结构化等专业的数据工具和数据加工服务,建设数据专区、数据加工厂等,开发数据分析模型和算法,提供数据价值评估、质量评估、能力评估等服务,确保数据服务过程的安全性和隐私性。 数据运营方:建立合规、互信、安全的技术体系,搭建和维护数据交易和流通平台,制定数据交易规则、流程、定价机制,促进数据供需双方的对接和交易流通,释放数据价值。 数据使用方:保护数据所有者和相关主体的权益,确保数据使用的合规性和安全性。按照约定的条件和规则使用数据,对使用数据产生的结果负责。同时,反馈数据质量问题,提供改进建议。 数据监管方:监督数据流通过程中各参与方行为,保障国家数据安全和各参与方权益。处理数据滥用、侵权等违法违规行为,推动数据要素市场健康发展。 数据资源流通主要模式设计 从应用层面讲,我国数据资源流通存在应用场景丰富、多元等特点,导致数据资源流通模式复杂多样,难以统一。本文提出集中式、分布式、分级式和混合式四种数据资源流通模式,可基本覆盖国内数据资源应用场景。用户根据具体情况选择合适的流通模式,或者结合多种流通模式,以实现数据资源的最优流通。集中式流通模式依托统一数据平台,具备高度集中化管理和运营的优势,能有效保障数据交易的规范性和安全性,但存在灵活性不足等问题;分布式流通模式在特定行业或领域展现出更高的灵活性和自主性,却面临数据标准化程度和监管难度的挑战;分级式流通模式适应行政管理体制,可有效保护地方权益,但技术差异可能影响数据标准化和互操作性;混合式流通模式灵活性强,可平衡各方利益诉求,但系统设计、实施和运维复杂度较高。通过合理设计流通模式,我们能够为数据资源流通利用体系框架的搭建奠定坚实基础,进而推动数字经济的全面发展。 集中式 该模式依托统一的数据交易市场和运营平台,所有数据提供方在此平台发布数据产品,数据使用方通过平台检索、购买和获取数据,平台提供统一的定价、结算、评价等服务。集中式流通模式特点在于高度集中化的管理和运营、标准化的数据交易流程和规则,便于监管和质量控制,有利于形成统一的数据定价机制,便于实施统一的安全和隐私保护措施,可实现数据的高效匹配和大规模流通。 分布式 该模式通过数据目录进行点对点交易和数据传输,不依赖中央平台,企业可直接发布数据产品信息,数据供需双方直接进行数据流通共享。分布式流通模式在特定行业或领域具有更高的灵活性和自主性,但此种模式数据标准化程度取决于数据提供方,数据质量难以保障,且点对点的数据共享交易使得监管难度较大。分级式该模式通常按行政层级(如省、市、区)建立数据目录和交易系统,各级系统之间建立连接,实现跨级数据共享流通。层级化的数据管理和流通体系可对不同层级的数据实施差异化管理。分级式流通模式可更好地适应各地行政管理体制,保护地方权益,但不同级别的系统可能存在技术差异,影响数据标准化和互操作性。 混合式 该模式可根据实际需求在不同领域或层面采用不同模式进行互联互通,如省市层面采用集中式、行业内部采用分布式、行政区域采用分级式,同时通过统一标准和接口实现不同模式间的互联互通。混合式流通模式灵活性强,能平衡各方利益诉求,可根据具体情况选择最优方案,并逐步演进以适应不同发展阶段的需求。但混合式流通模式的系统设计、实施和运维的复杂度较高,需要更高水平的管理和协调能力。 结论 本文通过剖析数据资源“供-流-用-管”流程面临的问题,从全局角度构建数据资源流通顶层理论框架。分析数据资源流通的关键环节并明确各环节的技术支撑,确保数据流通各阶段顺利进行;定义数据资源流通的关键角色,明确个体角色职责,保障流通体系有效运转;设计集中式、分布式、分级式和混合式四种数据资源流通模式以满足不同数据流通场景需求。此框架的建立为后续数据空间建设提供了理论参考,有助于提升数据资源的流通效率,推动数字经济健康、高效地发展。 来源(公众号):数据治理体系
2025-02-05 17:45 115
目录 1.大模型对多源异构数据的渴求 2.大模型数据处理流程 3.行业实践:GPT背后的数据体系 一、大模型对多源异构数据的渴求 大模型如GPT-3、PaLM、OPT等,其超大规模参数(百亿到万亿量级)需要海量数据支撑。单一数据源难以满足如此规模的数据需求,必须开辟多元数据源。而异构数据源的融合利用,对数据工程提出更高要求。让我们深入几类主要数据源的采集技术细节。 1. 爬虫技术:数据采集 对于文本大模型而言,网络文本语料可谓取之不尽。以GPT-3模型为例,仅Common Crawl一项就采集了4年,近800GB的原始网页数据。网络爬虫技术是采集如此规模语料的主力军。主流的爬虫系统可分为以下几类: 1)通用爬虫:如Scrapy、Heritrix等,采用广度优先策略,从若干Seed URL出发,递归爬取后继链接,直至达到停止条件。 通用爬虫的优势在于覆盖广,适合爬取海量页面组成通用语料库。但因缺乏领域针对性,难以保证信噪比。为了从爬取过程中动态调整策略,出现了一些智能化爬虫: Reinforcement Crawler:将下载过程建模为强化学习,Agent通过Trial-and-Error不断优化策略,以获取高质量页面。 Learning Crawler:通过文本分类、聚类等模型自动甄别页面质量。微软曾提出ACHE等学习型爬虫框架。 此外,为了对抗反爬,通用爬虫往往需要庞大的IP代理池轮换请求,并处理好频控、Cookie等问题。对于登录页面,还需要自动化登陆流程。这也进一步提高了工程难度。 2)垂直爬虫:针对特定网站定制的爬虫,如新浪微博爬虫、抖音爬虫等。其特点是利用Xpath、CSS选择器等方式,精准提取页面关键信息。如判别一个微博账号是否为僵尸粉,可提取其粉丝数、互动数等特征。 垂直爬虫的价值在于,充分利用了页面结构信息,数据准度更高。同时还可根据业务逻辑设置参数,如只爬取财经新闻,营销类微博等。另外,很多反爬技术如字体反爬、JS加密都针对通用爬虫,垂直爬虫可通过定制规避。但其缺点也很明显:适用范围窄,通用性差。每个网站要单独定制,开发成本高。如果网站频繁改版,规则还需跟着升级。这限制了其批量生产的能力。 3)动态爬虫:传统爬虫直接请求URL,返回HTML,只能获取静态页面。但当今很多网站采用AJAX、Vue等前后端分离技术,页面通过JS动态加载,给爬虫带来不小挑战。 为了爬取动态网页,出现了一系列动态渲染爬虫。典型方案有: i 无头浏览器:Headless Chrome/Firefox等,在无UI的环境下模拟真实浏览器行为。可执行JS获取动态内容。 ii WebDriver:Selenium等自动化测试框架,通过编程控制原生浏览器。如PhantomJS、Pyppeteer等。 iii HTTP拦截:Charles、Fiddler等抓包工具,拦截XHR请求,直接获取Ajax数据。 动态爬虫在众多场景下不可或缺,如电商比价、舆情监测都离不开其支持。动态爬虫的缺点是:启动浏览器内核开销大,性能远不及静态爬虫;被反爬风险也更大。 另外,为了提高爬虫的鲁棒性,往往需要引入代理调度中间件如Crawlera,处理好流量控制、故障转移、任务调度等。主流的分布式爬虫框架包括:Frontera、Scrapy-Redis、DistributedCrawler等。 需要强调的是,爬虫作为公网数据获取的主要手段,必须严格遵守Robots协议,合法合规地开展数据采集。对版权数据更应谨慎对待,必要时需要获得站长授权。总的来说,开发一套高质高效且合规的爬虫系统绝非易事,需要综合软硬件、法务等多方面考量。 2. 语音视频大数据的采集与挖掘 随着多模态大模型的崛起,语音、视频数据的重要性愈发凸显。如微软的Tango、Meta的CAIRa等大模型,都需要大量带文本标注的语音视频数据。让我们看看这一领域的主流数据采集方案: 1) 视频网站批量下载:YouTube、BiliBili等视频网站拥有海量UGC视频,是语音视频数据的重要来源。批量下载工具主要分两类: i 站点视频下载器:You-Get、Youtube-dl等,支持数百个主流站点。缺点是不能批量下载,也不能定制视频清晰度等参数。 ii 站点视频爬虫:利用爬虫框架如Scrapy,批量获取视频链接,结合ffmpeg等下载。可完全定制下载策略。一般采用站点视频爬虫方式,获取元数据如标题、简介构成配套的文本语料。下载后的视频还需经过内容审核,滤除低质、违规视频。这需要借助于视频内容理解、NSFW检测等AI技术。 2) 音视频众包:与文本类似,带标注的语音数据也离不开众包。但相比文本,语音标注的成本更高,专业性更强。需要标注人员同时具备语言和领域知识,才能准确转写专业词汇缩写等。 另一方面,语音数据的隐私性更强。众包过程必须对原始数据进行脱敏,去除涉及隐私的片段。同时要对标注人员的背景进行审查,签署保密协议。一些敏感领域的语音数据如军事、医疗,必须在内部完成标注,不能对外众包。 Mozilla的Common Voice就是一个优秀的语音数据开源项目。通过志愿者在线录制并验证,目前已收集了100+语种,数千小时的语音数据。阿里、搜狗等国内企业也通过用户手机App、输入法等工具,积累了大规模中文语音数据集。 一提到语音数据采集,ASR(语音识别)是绕不开的话题。近年来,ASR技术快速发展,为语音文本数据的自动化生产提供了可能。如利用Kaldi、Wav2Letter等开源工具包,可对语音数据进行自动转写,大幅降低人工转写成本。当然,ASR转写仍难以完全替代人工,尤其是方言、口音较重的语音。一种常见做法是,先由ASR粗略转写,再由人工校对修订。阿里等企业在其语音助手中大量采用这一方案。 除了语音转写,语音数据的降噪、分割也是重要的预处理环节。工业级的语音处理流水线需要包括: i 静音检测:Webrtc的VAD、TensorFlowVAD等,滤除无效静音片段。 ii 回声消除:Speex、WebRTC等,去除线路回声干扰。 iii 语音降噪:Audacity、Sox等,去除背景噪音。 iv 说话人分离:Conv-TasNet、DPRNN等,将多人语音分离为独立音轨。 视频数据的采集要复杂得多。原因有二:一是视频数据规模更大,采集成本高。二是视频语义信息更丰富,需要更复杂的处理。主要的视频数据采集方法包括: i 专业采集:搭建视频采集棚,由专业人员拍摄制作。数据质量有保障,但成本很高。一些自动驾驶公司采用此方案采集路测视频。 ii 众包采集:利用视频众包平台,如AWS的Mechanical Turk,发布拍摄任务。质量略逊于专业采集,但成本更低,更适合通用数据采集。 iii 监控视频采集:从已有监控系统提取视频数据。如商汤科技从社区监控采集人流、车流数据。这种方式成本最低,但对数据隐私和版权要格外小心。 采集到的原始视频需经过一系列预处理,才能输入到视觉算法中。主要的视频预处理技术包括:关键帧提取: i 提取关键帧,滤除冗余帧。如PySceneDetect、Frame-Extractor等。 ii 目标检测:检测并定位视频中的目标物体。如YOLOv5、EfficientDet等。 iii 目标跟踪:在不同帧间标识同一目标物体。如DeepSORT、FairMOT等。 iv 动作识别:识别视频中的人物动作。如TSN、X3D等。经过这些处理,原始视频被结构化为一系列带标注的图像和物体轨迹,为下游任务如视频分类、问答奠定了基础。可以说,高效采集语音视频数据离不开AI本身。数据采集和模型训练相互促进,形成正向循环,这是多模态AI发展的内在逻辑。 3. 知识图谱:结构化知识库 知识图谱是以RDF三元组形式,系统描述概念、实体及其关系的语义网络。知识图谱是认知智能的重要基础,如智能问答、推荐系统等都依赖其支持。知识图谱构建的第一步,是海量网页文本中提取实体和关系,形成初步的实体关系图。这一过程也称为知识抽取,技术路线主要有: 1) 基于模板的知识抽取: i 手工模板:专家定义一系列模板,如"A是B的C"等。该方法构建成本高,覆盖面窄,仅适用于特定领域。 ii 自动模板:利用Snowball、DIPRE等算法自动生成模板。先由少数种子实例出发,迭代学习新模板和新实例。 2) 基于深度学习的知识抽取: i 命名实体识别:利用BiLSTM-CRF、BERT等模型识别句中的命名实体,如人名、地名等。 ii 关系分类:判断两个实体间是否存在预定义的关系类型。常用CNN、BERT等方法。 iii 属性抽取:从文本中抽取实体的属性值,如时间、数量等。 工业界知识抽取常采用基于深度学习的方法,再结合规则进行校验补充。如阿里知识图谱从百科、电商等网页中抽取了数亿实体,定义了数百种关系、数千种属性类型。 抽取得到的原始知识还很粗糙,需要一系列优化过程,包括: i 指代消解:将代词、同义词等映射到规范实体。 ii 实体统一:发现不同来源的重复实体,消除冗余。 iii 知识融合:发现不同模板抽取的重复关系,选取置信度高的关系。 iv 知识推理:利用规则学习算法,挖掘隐含关系。 此外,还需将知识图谱与本体进行映射,赋予知识更明确的语义。本体构建一般采用人工方法,由领域专家定义核心概念、关系。对于通用领域,也可复用WordNet、Cyc等现有本体资源。 传统知识图谱以结构化为主,但近年来出现了众多图谱预训练语言模型如ERNIE、CoLAKE等。它们采用类似Word2Vec的方式,通过知识图谱中的随机游走序列,学习节点和关系的语义嵌入表示。这种做法融合了知识图谱的结构信息和文本语料的语义信息,为知识表示开辟了新的方向。 知识图谱数据的采集与应用密不可分。如智能音箱领域,需要采集语音-文本-意图-动作-反馈等多环节数据,并形成知识闭环。这对数据治理提出了更高要求。需要打通数据采集、存储、计算、应用的全链路,实现数据的自动化、智能化管理。 4. 行为数据采集 行为数据指用户在使用产品过程中产生的数字足迹,包括浏览、点击、评论等用户事件。相比其他数据源,行为数据最能反映用户的真实意图和偏好,对个性化服务至关重要。以推荐系统为例,其核心是根据用户历史行为预测用户对新物品的兴趣。用户行为数据可分为以下几类: 1) 用户属性数据:人口统计属性如年龄、性别、地域等,以及兴趣偏好标签。一般由用户在注册、填写问卷时显式提供。 2) 用户交互数据:用户与物品的直接交互,如浏览、收藏、购买商品,观看、点赞视频等。交互数据直接反映了用户对物品的兴趣,是推荐系统的核心数据源。 3) 用户社交数据:用户在社交网络中的关系链数据,如好友、关注、提及等。基于同质性原理,近朱者赤,用户的社交网络能揭示其兴趣和影响力。 4) 用户反馈数据:用户对推荐物品的显式反馈,如评分、点赞、评论等。反馈数据相比交互数据更稀疏,但对提升推荐质量很重要。 5) 场景数据:如时间、地点、设备等用户当前的环境因素。场景因素会影响用户的即时需求,是上下文相关推荐的关键。 用户行为数据采集的主要途径包括: 1) 服务器日志:用户与应用服务器的每次交互,都会在服务端日志中留下记录。日志采集工具如Flume、Logstash等能实时收集海量日志,并存入HDFS等分布式存储。 2) 客户端埋点:在客户端预置采集代码,触发特定事件时上报数据。相比服务端日志,客户端埋点更灵活,数据粒度更细。典型的埋点SDK有GrowingIO、Sensors等。 3) 应用内Tracker:应用内置的行为跟踪器,如Android的Tracker、iOS的AppTrackingTransparency等。相比埋点,Tracker的接入更简单,但定制化程度较低。 4) 可视化埋点:通过类似Selenium的自动化工具,记录用户在应用页面的操作轨迹。相比代码埋点,可视化埋点的实施成本更低,非常适合中小企业。 值得注意的是,不同采集渠道的行为数据在格式和语义上往往不一致,需要通过数据集成进行统一。ETL工具如DataX、Kettle,以及大数据平台Hive、Spark SQL等是常用的数据集成方案。集成后的行为数据在进入推荐流程前,还需经过一系列数据预处理,如: i 数据清洗:剔除非法数据,如机器刷单产生的异常点击。可基于统计规则,或异常检测算法。 ii 会话重构:将原子事件按照时序关联为会话,挖掘用户的主导目的。 iii 序列建模:对会话序列提取高阶统计特征,如购买高峰时段,品类偏好等。 如此经过采集、集成、处理的行为数据才能为算法建模所用。从原始数据到可用特征,往往要经过数十个环节的数据开发。阿里等大厂为此构建了灵活的大数据开发平台如Databricks,提供从数据接入、存储,到计算、应用的一站式解决方案。另一个值得关注的趋势是,利用在线学习、强化学习等技术,构建实时闭环的行为数据采集和应用。典型如广告系统,利用实时竞价获得用户反馈,动态调整出价策略。强化学习算法DQN、LinUCB等在此发挥了重要作用。阿里的智能调度平台Sigma,腾讯的广告投放引擎Vega都大量采用此类技术。 可以预见,随着用户互动方式的日益多样,对行为数据的采集分析能力,将成为企业数字化转型的核心竞争力。这不仅需要前沿的AI算法,更离不开端到端的数据智能架构。唯有打通全流程、全域数据,才能洞察用户需求,驱动业务增长。这是以用户为核心的数字化时代的必然要求。 二、大模型数据处理流程 了解了大模型对海量异构数据的渴求,让我们再来看看工业界是如何驾驭这些数据的。以下是一个典型的大规模机器学习数据开发流程: 1. 数据接入层 原始数据散落在业务库、日志、爬虫数据等各个系统,需要通过数据接入统一集成到大数据平台。数据接入的关键是如何平衡数据时效性和成本。对于实时性要求高的数据,常采用流式数据管道,通过Kafka、Pulsar等消息队列实时推送。LinkedIn的Brooklin、阿里的Canal、Facebook的Wormhole都是优秀的流数据集成框架。对于离线数据,则采用批量同步的方式,通过调度系统按天/小时增量拉取。如阿里的DataWorks、美团的Minos、360的Eleme等。进入大数据平台的原始数据一般存于Hadoop HDFS、云存储如S3等廉价存储介质。但这些数据往往杂乱无章,需要严格的数据治理。数据治理的核心是元数据管理,记录数据的业务口径、技术参数、血缘关系等。Atlas、阿里的Dataphin等是常见的元数据管理平台。 2. 数据处理层 原始数据"入湖"后还很粗糙,需经过系列加工处理,如数据清洗、数据集成、数据变换等,形成结构化、语义化的高价值数据集。 清洗过程通过一系列 detect-repair 操作,识别并纠正脏数据。常见数据质量问题包括:完整性(字段缺失)、唯一性(重复记录)、合法性(越界值)、一致性(逻辑矛盾)等。传统ETL采用SQL手工编写转换逻辑,对数据量大、Schema复杂的场景难以应对。基于 DAG 的 ETL 框架应运而生,如Airflow、阿里的DataWorks等。 它们将ETL流程抽象为有向无环图,每个节点完成特定转换,后一节点严格依赖前节点输出。DAG架构使ETL流程灵活可配置,极大提升了数据处理效率。Spark、Flink等分布式计算引擎在数据处理中扮演核心角色。它们基于内存计算,可实现比Hadoop MapReduce快数十倍的批流处理。 Spark的DataFrame、Flink的Table API进一步简化了分布式计算的编程复杂度,使数据开发像SQL一样简单。数据处理的一个重要目标是形成主题域的业务数据模型,如用户域、商品域等。阿里提出的数据中台概念,本质上就是一套统一、共享的业务数据模型,为上层应用提供标准化数据服务。 工业界数据处理的一个重要趋势是向云上迁移。云厂商如AWS、阿里云纷纷推出大数据平台产品,将存储、计算、调度打包提供。用户可按需按量付费,显著降低了总拥有成本。同时云服务的弹性伸缩能力,可轻松应对双十一等洪峰流量,这是传统私有集群难以企及的。 3. 特征工程 数据经过清洗、集成、ETL,离可用于机器学习尚有最后一步,即抽取有判别力的特征。特征工程往往决定了机器学习的效果上限。 特征抽取要因任务而异。如排序类任务关注物品之间的相对顺序,特征多基于统计量如CTR、转化率等。推荐类任务重在刻画用户兴趣,特征侧重于交互序列、共现频率等。搜索类任务需捕捉query-doc相关性,特征多围绕文本相似度、语义匹配展开。 常见的特征抽取方法有: 1)统计特征:如均值、方差、百分位等,刻画数据的集中趋势、离散程度等。 2)频次特征:如TF-IDF、人工定义的业务频次等,反映事件发生的频繁程度。 3)交叉特征:将多个特征组合形成的高阶特征,挖掘特征间的非线性关系。如年龄 X 性别 X 职业。 4)嵌入特征:将高维稀疏的 ID 类特征压缩为低维稠密向量,如word2vec、node2vec等。 5)图特征:挖掘社交网络中的节点重要性、社区结构等,如PageRank、社区发现等。 传统的特征抽取高度依赖专家经验,存在成本高、迭代慢等问题。自动特征工程应运而生,通过机器自动生成、筛选特征。其代表方法有: 1) 深度学习:利用CNN、RNN等自动学习层级特征表示。如PNN、DeepFM等。 2) 表示学习:通过随机游走在异构网络中学习节点嵌入。如Airbnb的Embedding一体化平台。 3) AutoML:自动化机器学习流程,包括超参调优、神经网络架构搜索(NAS)等。如阿里的PAI、腾讯的 Angel 等。 自动特征工程是AI驱动数据开发的重要方向,相比人工,其优势在于:覆盖率高,可自动挖掘高阶组合特征;迭代快,新数据的特征快速上线;适应性强,可端到端优化适应下游任务。当然,自动化方法并非灵丹妙药,关键特征的生成仍离不开对业务的理解和抽象。 抽取的原始特征还需经过特征选择,去除冗余和共线性特征。常用方法有平均精度、递归特征消除等。此外,对数值特征还要进行归一化,将不同尺度的特征映射到同一量纲。如Min-Max归一化、Z-score归一化等。对类别特征还要进行编码,如One-Hot 编码、Target 编码等,使其满足机器学习算法的输入需求。 特征工程是算法与业务结合的纽带,往往是数据开发最费时费力的环节。阿里的特征平台、美团的Cube就是为了应对特征工程而生。它们建立统一的特征仓库,为不同业务提供特征注册、存储、共享、监控等一站式服务。打通线上线下环境,实现特征的自动化生产。这大大提升了算法迭代效率,也促进了特征在业务间的复用。 4. 样本构建 万事俱备,只欠东风。模型训练的最后一环,是从特征中抽取样本(X,y)。X是特征向量,y是目标标签。样本构建要考虑以下几点: 1) 样本代表性:抽样要均匀覆盖目标人群,避免选择偏差。如分层抽样、配额抽样等。 2) 样本平衡性:各类样本的数量要均衡,避免稀有类被忽略。如过采样、欠采样等。 3) 样本时效性:在线学习场景要注意样本的新鲜度,及时淘汰过期样本。如Time-Decay采样等。 4) 样本数据干净,无各种异常点、离群值。不合理的样本会引入噪音干扰模型训练。 工业界样本构建一般基于数据平台的调度框架,如Airflow、Oozie等。它们以DAG工作流形式描述样本构建过程,自动化执行抽样、特征提取、数据合并等步骤。阿里的样本工厂、腾讯的Metis都是这一思路的优秀实践。样本构建是算法上线的最后一环,对效果影响重大。样本不当,再好的算法也难施展拳脚。谷歌用10%流量进行在线A/B实验,就是为了获得高质量的样本反馈。 样本的标签质量尤为重要,标注不一致、噪音过大都会严重影响模型效果。众包标注平台如Figure-Eight等,通过任务拆分、交叉验证等方式,保障标注质量。 总之,大模型背后是一整套严密的数据工程。从数据接入到样本构建,每一步都关系着最终效果。阿里的特征平台、腾讯的丰巢等,无不在打造端到端一体化的特征开发利用链路。它们屏蔽了数据处理的繁琐细节,让算法工程师聚焦于模型本身。这是AI驱动业务发展的大势所趋。 三、行业实践:GPT背后的数据体系 理论讲完,让我们再来看看这些方法在OpenAI GPT-3中的实践。GPT-3的训练数据高达4500亿token,约800G文本。这在当时是前所未有的规模。那么,这些数据是怎样获取、处理,最终喂给模型的呢? 1. 数据源:高质量网页语料 GPT-3使用了以下几个主要语料库: 1) Common Crawl(60%):一个开放的网页爬取项目,GPT-3使用了其2016-2019年间的快照数据。CC数据广泛但噪音大,需大量清洗。 2) WebText2(22%):从Reddit帖子外链的高质量网页构建。先从8亿条Reddit帖中抽取karma>3的帖子,再提取帖中的URL,获得4000万个高质量网页。相比CC,WebText噪音小,但覆盖面窄。 3) Books1 & Books2(8%):两个图书语料,前者多为版权过期的古籍,后者为网络图书。书籍语料连贯性强,但话题单一。 4) Wikipedia(3%):英文维基2020/03版全部文章。百科有较强的权威性和连贯性,但缺乏口语化表达。 此外还有5%的其他数据,如谷歌新闻等。可见,GPT-3的语料以网页为主,注重了数据质量,但话题和文体的全面性有欠缺。这导致其在一些特定领域表现不佳。 2. 数据清洗:以规模换质量 GPT-3没有对数据做太多复杂处理。原始HTML用Hadoop集群批量提取正文、分句,再过滤掉低质内容,如:太长或太短的文档(<128字或>1M字)、重复度高的文档(如模板广告页)、低可读性文档(如代码、表格等)、非英语文档 之后,所有文本被BiT模型编码为token,组成最终的训练语料。值得一提的是,为了避免不同来源文本的分布差异,GPT-3对所有文档的采样概率做了平滑,削弱了高质量但话题单一的语料的影响。 这样的数据清洗流程其实颇为粗放。OpenAI也承认质量是GPT-3语料的短板。但凭借超大规模,GPT-3最终还是学到了强大的语言模型。这或许印证了"以量变达质变"的哲学。 3. 模型训练:混合精度+Kernel优化 GPT-3的训练过程主要有以下特点: 1) 预训练+微调:先在全量语料上预训练Language Model,再在下游任务数据上微调。这种迁移学习典型的two-stage方法。 2) 混合精度训练:用FP16和FP32 Tensor混合表示模型参数。FP16可减少显存占用,加快训练,但部分layers如Softmax仍用FP32保证数值稳定性。 3) 显存优化:只在GPU上保留当前mini-batch所需的参数和梯度,其他parameters存于CPU内存。使训练可在单卡GPU上进行。 4) Kernel优化:用NVIDIA的cuBLAS库优化矩阵乘等关键运算,提高GPU利用率。 5) 梯度检查点:每隔一定step保存梯度,节省前向传播时的显存。该技巧常用于训练大batch尺寸。 OpenAI表示,3000亿参数的GPT-3模型完成训练仅用了10天,平均算力利用率高达50%。这得益于上述一系列性能优化。但仍有学者质疑,仅靠优化很难如此高效,期间是否有预训练参数的迁移复用? OpenAI对此未置可否。 4. 推理部署:API形式对外开放 与BERT等开源模型不同,GPT-3并未公开模型checkpoint。相反,OpenAI以API形式提供模型调用。开发者可以通过API接口,用少量样本在特定任务上 fine-tune GPT-3,并将训练的提示(prompt)保存在云端。 这种 API as Model 的部署方式有几点好处: 1) 模型IP易于保护。用户无法获取GPT-3底层参数,避免了被clone、滥用的风险。 2) 计算资源易于管理。所有任务调度、资源分配由云端统一控制,避免终端设备算力浪费。 3) 模型持续优化。用户上传的数据、反馈可用于持续训练模型,API升级也更方便。 当然,这也存在一些隐忧: 1) 推理延迟较高。所有请求都要通过远程API,难以应对实时性要求高的场景。 2) 隐私安全存疑。用户数据会上传至OpenAI服务器,隐私保护措施尚不明确。 3) 定价不够灵活。目前仅按API调用次数计费,对中大用户缺乏针对性优惠。 一些研究者还尝试了基于梯度Checkpoint、GPU集群的推理加速方案,但尚未在生产中得到验证。如何在云端高效、经济地 Serving 大模型,仍是一个开放的挑战。GPT-3背后是一整套数据智能架构。从数据采集、清洗到特征抽取、样本构建,再到训练优化、推理部署。每个环节都离不开大数据、分布式计算等前沿技术的加持。这是对工业界机器学习落地能力的一次集中检验。 来源(公众号):DATA数据社区
2025-01-24 16:08 146
目录 1.数据价值实现的基本路径 2.数据应用的系统剖析 3.数据产品的本质特征 4.数据应用与数据产品的关系 在当今数字化转型浪潮中,数据应用和数据产品这两个概念始终处于热议的中心。作为一名在数据领域深耕了十多年的从业者,我深深感受到这两个概念之间既存在着明显的区别,又有着密不可分的联系。每当有人谈起这个话题,我总是想起自己早期在企业数字化转型项目中的经历。那些摸索和思考的过程,让我对这个问题有了更深层的认识。在开始深入探讨之前,我想强调一点:理解数据应用与数据产品的关系,不能仅仅停留在表面的概念区分上。我们需要从价值创造的本质出发,透过现象看本质,才能真正把握住这个问题的核心。 1. 数据价值实现的基本路径 1.1 数据价值转化的基本规律 要深入理解数据价值转化的规律,我们首先需要认识到一个基本事实:数据本身并不直接等同于价值,它需要经过一系列的转化才能释放其潜在价值。这个认识看似简单,却往往被很多企业在实践中忽视了。 回想2019年参与的那个全球制造企业的数字化转型项目,给了我很多启发。这是一家有着百年历史的制造企业,拥有庞大的生产系统和复杂的供应链网络。项目伊始,企业高层提出了一个看似简单实则深刻的问题:"我们每天产生如此海量的数据,但似乎并没有从中获得应有的价值,问题出在哪里? "这个问题促使我们团队开展了为期近一年的深入研究和实践。在这个过程中,我们逐步发现,数据价值转化实际上是一个多维度的复杂过程。它不仅涉及技术层面的数据处理和分析,更重要的是要建立起一个完整的价值转化体系。 在这个制造企业的案例中,我们首先帮助他们建立了全面的设备运行数据采集体系。这个系统每天能够采集到数百个参数,涵盖了从原材料投入到成品输出的整个生产流程。但仅仅有数据是远远不够的,关键是要从这些数据中发现有价值的信息。 通过深入分析这些数据,我们发现了一些令人意外的规律。比如,某些看似不相关的参数之间存在着强相关性,这些相关性直接影响着产品的质量。基于这些发现,我们帮助企业优化了关键工艺参数,最终使产品合格率提升了12%,年度节约成本超过2000万元。 这个过程让我深刻认识到,数据价值转化实际上遵循着"认知-挖掘-应用-沉淀"这样一个完整的循环。在认知阶段,需要明确数据能够解决什么问题;在挖掘阶段,需要运用恰当的方法从数据中提取有价值的信息;在应用阶段,则需要将这些信息转化为实际的行动;而在沉淀阶段,要将成功的经验固化下来,形成可持续的能力。 1.2 数据价值实现的核心机制 数据价值实现的核心机制,更像是一个有机的生命体,而不是一个机械的流程。它需要多个要素的共同作用才能良好运转。在我看来,这些要素主要包括业务驱动、技术支撑、组织保障三个方面。 业务驱动是最根本的,因为价值最终要体现在业务结果上。我经常看到一些企业陷入一个误区:过分关注技术本身,而忽视了业务价值的创造。就像我常对团队说的:"技术再先进,如果解决不了实际问题,那也只是一个精美的玩具。"真正的价值往往来自于对业务痛点的深刻理解和有效解决。 技术支撑是数据价值实现的重要保障。不过,这里需要纠正一个常见的认识偏差:技术能力并不仅仅是指工具和平台,更重要的是如何将技术与业务深度融合。在实践中,我发现很多企业热衷于引进最新的技术工具,购置各种高大上的平台,却忽视了技术应用的实际效果。这让我想起一句话:"工具是锋利的,但使用工具的手更重要。" 真正的技术能力应该包含三个层次:基础设施能力、数据治理能力和分析应用能力。基础设施能力确保数据可以被有效收集和存储;数据治理能力保证数据的质量和可用性;分析应用能力则负责将数据转化为价值。这三个层次缺一不可,相互支撑。 2. 数据应用的系统剖析 2.1 数据应用的价值体系 在探讨数据应用的价值体系时,我们需要跳出传统的线性思维模式。数据应用的价值不是简单的投入产出关系,而是一个多维度的价值网络。这个网络中的各个节点相互影响,相互促进,形成了复杂的价值创造体系。 从我的观察来看,这个价值网络主要包括三个层面:决策支持、效率提升和创新驱动。这三个层面不是割裂的,而是相互联系、层层递进的关系。 在决策支持层面,数据应用已经发生了质的飞跃。它不再仅仅是提供一些基础的统计数据,而是能够深入业务的各个环节,提供更有价值的决策参考。举个例子,现代企业的决策支持系统已经能够实时监控业务运营状况,预测潜在风险,并提供智能化的决策建议。这种转变使得决策过程变得更加科学和高效。 具体来说,决策支持层面的价值体现在三个方面:首先是决策的精准性提升,通过数据分析能够更准确地把握市场趋势和客户需求;其次是决策的及时性改善,实时数据分析使得企业能够快速响应市场变化;最后是决策的系统性增强,数据分析帮助决策者更全面地评估各种可能的方案和其潜在影响。 效率提升层面的价值往往被低估。很多企业在谈到数据应用时,第一反应是用它来支持决策,却忽视了它在效率提升方面的巨大潜力。数据应用能够通过流程优化、资源调配、异常预警等多种方式,显著提升运营效率。 更重要的是,数据应用带来的效率提升不仅仅是局部的、暂时的,而是能够形成持续的改进机制。通过数据的持续积累和分析,企业能够不断发现效率提升的空间,形成良性循环。这种循环式的改进,最终会带来企业整体运营效率的显著提升。 创新驱动可能是数据应用最具想象力的价值维度。在这个层面上,数据应用不仅能够优化现有的业务模式,更能够催生全新的业务形态。通过对海量数据的深度挖掘和分析,企业能够发现新的市场机会,开发新的产品和服务,甚至重构整个行业的价值链。 2.2 数据应用的实现路径 从实践角度来看,数据应用的实现路径并不是一条笔直的道路,而是一个不断试错和优化的过程。这个过程中最关键的是要把握好"度"的问题。技术投入要适度,过度投入可能会导致资源浪费;变革节奏要适度,过快可能会引起组织的抵触;目标设定要适度,过高可能会打击团队积极性。 在数据应用实现过程中,我发现从分析到洞察的转化是一个特别关键的环节。真正有价值的分析,往往来自于对数据的多维度解读和跨界思考。这就像解读一部经典文学作品,表面的故事情节人人都能看懂,但深层的寓意需要静下心来细细品味。 在实际工作中,我经常强调一个观点:数据分析不是目的,而是手段。我们的目标不是生产更多的分析报告,而是要通过分析获得真正有价值的洞察。这种洞察应该能够直接指导业务行动,推动业务改进。为此,我们需要建立一套完整的分析框架,包括问题界定、分析方法选择、结果验证和应用推广等环节。 2.3 数据应用的成熟度演进 关于数据应用的成熟度演进,我想打破传统的阶段论述方式。从实践经验来看,这种演进更像是一个螺旋上升的过程,而不是简单的线性发展。每个企业都有自己独特的发展轨迹,关键是要找到适合自己的演进路径。 描述性分析往往是很多企业的起点,但这并不意味着它就是低级的分析形态。恰恰相反,一个深入的描述性分析往往能够揭示问题的本质。我曾经遇到过这样的情况:一家企业在做客户流失分析时,仅仅通过对基础数据的深入描述性分析,就发现了一些重要的客户流失规律,这些发现直接指导了后续的客户维系策略的制定。 预测性分析则代表着数据应用向前看的能力。然而,这里我想强调一个重要认识:预测的目的不是为了预测而预测,而是为了更好地行动。在实践中,我发现很多企业过分追求预测的准确性,却忽视了预测结果的可操作性。实际上,一个准确率相对较低但能指导实际行动的预测模型,往往比一个准确率很高但难以落地的模型更有价值。 智能决策作为数据应用的高级形态,代表着数据应用的未来方向。但值得注意的是,智能决策不等于完全的自动化决策。在我看来,最理想的状态是人机协同的决策模式,让数据智能辅助人的判断,而不是完全取代人的决策。这种协同模式能够既发挥机器在数据处理和模式识别方面的优势,又保留人类在战略思考和创新判断方面的长处。 3. 数据产品的本质特征 3.1 数据产品的形态解析 在探讨数据产品之前,我想分享一个具有启发性的项目经历。2022年,我参与了一个金融科技公司智能风控产品的开发项目。这个项目的演进过程很好地诠释了数据产品的本质特征。 最初,这是一个面向内部的风控系统,主要用于评估信贷风险。系统通过整合多个维度的数据,包括交易历史、信用记录、行为特征等,构建了一个复杂的风险评估模型。随着系统的不断完善,我们发现这套解决方案具有很强的普适性。经过产品化改造后,它成功服务了数十家金融机构,年度交易额超过千亿。 这个经历让我深刻理解到:优秀的数据产品往往源于对具体业务问题的深刻理解,而产品化则是让这种理解能够规模化复制。数据产品的核心价值不仅在于其技术先进性,更在于其解决问题的有效性和可复制性。 从形态上看,数据产品可以分为数据集类、分析类、算法模型类和解决方案类。数据集类产品主要提供结构化的数据资源,其价值在于数据的质量和完整性。分析类产品则focus在数据分析和可视化能力上,帮助用户更好地理解和利用数据。算法模型类产品提供特定问题的解决方案,如风险评估、需求预测等。解决方案类产品则是最综合的形态,通常包含了数据、算法、分析工具和业务规则的完整集合。 3.2 数据产品的价值实现机制 数据产品的价值实现机制是一个需要精心设计和持续优化的系统。从我的实践经验来看,这个机制需要在多个维度上取得平衡:标准化与个性化的平衡、通用性与专业性的平衡、易用性与功能性的平衡。 标准化与可复制性构成了数据产品的基础特征。不过,这里需要特别注意一个关键点:标准化不等于僵化。优秀的数据产品往往能够在标准化的基础上提供灵活的定制空间。这就像是一套精心设计的积木系统,基础模块是标准化的,但通过不同的组合方式可以搭建出满足不同需求的解决方案。 在产品设计中,我们特别强调模块化的重要性。模块化设计不仅能够提高产品的可维护性和可扩展性,更重要的是能够为客户提供更大的灵活性。通过不同模块的组合,客户可以根据自己的具体需求构建最适合的解决方案。这种设计理念极大地提升了产品的适应性和市场竞争力。 场景适配能力是数据产品成功的另一个关键因素。我经常对团队强调,产品设计的起点不是技术特性,而是场景需求。只有深入理解场景,才能设计出真正有价值的产品。这需要产品团队具备深厚的领域认知和敏锐的市场洞察力。 在实践中,我们发现场景适配往往需要处理三个层面的问题:业务流程的适配、用户习惯的适配和组织特点的适配。业务流程的适配确保产品能够顺畅地融入客户的现有业务体系;用户习惯的适配关注产品的易用性和用户体验;组织特点的适配则考虑客户组织的特殊需求和管理方式。 4.数据应用与数据产品的关系 4.1 核心重叠领域 , 通过多年的实践观察,我越发感受到数据应用与数据产品之间存在着深层的联系。这种联系不仅体现在技术层面,更体现在价值实现的本质层面。理解这种联系,对于企业制定数据战略具有重要的指导意义。 首先,两者在价值目标上具有高度的一致性。无论是数据应用还是数据产品,其终极目标都是实现数据价值的最大化。这种一致性使得两者之间存在着天然的协同空间。在实践中,我们经常看到优秀的数据应用经验能够转化为成熟的数据产品,而数据产品的发展又能够促进数据应用水平的提升。 在技术基础层面,数据应用与数据产品也表现出显著的重合特征。从数据治理到分析建模,再到价值落地,所需的核心技术能力是高度相通的。这种技术基础的共通性不仅降低了开发成本,也为两者的融合发展提供了可能。举例来说,企业在构建数据应用时积累的技术经验,往往可以直接应用到数据产品的开发中。 实现路径的相似性是另一个重要的重叠领域。无论是数据应用还是数据产品,都需要经历从需求分析、方案设计到实施落地的完整过程。这种路径相似性使得经验和最佳实践能够在两个领域之间有效传递,从而加速价值实现的进程。 4.2 互补优势分析 在深入研究数据应用与数据产品的关系时,我发现它们之间存在着独特的互补性。这种互补性不是简单的功能互补,而是在价值创造方式上的互补。 数据应用往往具有更强的场景针对性和灵活性,能够快速响应具体的业务需求,能够根据具体情况提供最适合的解决方案。这种特性使得数据应用在处理特殊需求和复杂场景时具有独特优势。 而数据产品则具有更好的规模效应和标准化优势,能够实现价值的规模化传递,能够批量生产标准化的解决方案。这种特性使得数据产品在服务大量客户和实现价值复制时更有优势。 这种互补性在实践中常常产生意想不到的效果。数据应用中积累的经验可以为产品开发提供重要的参考,而产品化过程中形成的标准化思维又能够反哺具体的应用实践。这种良性互动形成了一个正向的价值创造循环。 来源(公众号):DATA数据社区
2025-01-23 16:53 169
AI浪潮之下,互联网大厂“内卷”的赛道尤为默契,一致将目标锁定大模型。从百度的文心一言到阿里的通义千问,从腾讯混元到字节豆包……各厂均卷出了自家的大模型。而在大家疯狂训练大模型的背后,数据这一“硬通货”尤为重要。 毕竟,数据是大模型的“粮食”。数据的质量和数量将直接影响着大模型的性能和准确度。随着大模型赛道的加速“内卷”,未来对于数据的需求量只会越来越多,质量要求也会越来越高。 数据将是未来AI大模型竞争的关键要素 人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT与GPT-3的模型架构类似,并使用RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。 人工智能领域以数据为中心的AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本。 以数据为中心的 AI:模型不变,通过改进数据集质量提升模型效果 AI大模型需要什么样的数据集 1)高质量:高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,即减少训练时长。 2)大规模:OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所遵循的“伸缩法则”(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。 3)丰富性:数据丰富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据。 数据集如何产生 建立数据集的流程主要分为: 1)数据采集;2)数据清洗:由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题;3)数据标注:最重要的一个环节;4)模型训练:模型训练人员会利用标注好的数据训练出需要的算法模型;5)模型测试:审核员进行模型测试并将测试结果反馈给模型训练人员,而模型训练人员通过不断地调整参数,以便获得性能更好的算法模型;6)产品评估:产品评估人员使用并进行上线前的最后评估。 数据采集:采集的对象包括视频、图片、音频和文本等多种类型和多种格式的数据。数据采集目前常用的有三种方式,分别为:1)系统日志采集方法;2)网络数据采集方法;3)ETL。 数据清洗:数据清洗是提高数据质量的有效方法。由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,故需要执行数据清洗任务,数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了 AI 算法的有效性。 数据标注:数据标注是流程中最重要的一个环节。管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求,一个标注任务将会分配给多个标注员完成。 模型训练与测试:最终通过产品评估环节的数据才算是真正过关。产品评估人员需要反复验证模型的标注效果,并对模型是否满足上线目标进行评估。 来源(公众号):数据治理体系
2025-01-22 17:45 138
目录 全文解读 (一)编制数据资产台账 (二)开展数据资产登记 (三)完善授权运营机制 (四)健全收益分配机制 (五)规范推进交易流通 关于印发《数据资产全过程管理试点方案》的通知 为贯彻落实党中央、国务院关于数字经济的决策部署,充分激发数据资产潜能,防范数据资产价值应用风险,推动数字经济高质量发展,财政部选取部分中央部门、中央企业和地方财政部门(以下统称试点单位),从2025年初至2026年底,组织开展数据资产全过程管理试点。根据《财政部关于印发〈关于加强数据资产管理的指导意见〉的通知》(财资〔2023〕141号)等文件精神,我们研究制定了《数据资产全过程管理试点方案》,将围绕数据资产台账编制、登记、授权运营、收益分配、交易流通等重点环节,试点探索有效的数据资产管理模式,完善数据资产管理制度标准体系和运行机制。现印发给你们,请对照《数据资产全过程管理试点方案》,结合本单位实际,认真开展试点工作,抓好贯彻落实。 原文地址:https://www.gov.cn/zhengce/zhengceku/202412/content_6994953.htm 全文解读 方案总目标:围绕数据资产重点环节开展试点,形成工作指引,打造标杆案例,为完善制度积累经验。 试点范围:7部门、6企业、16个地区。 试点时间:2025年1月至2026年12月,分阶段推进试点任务。 工作机制:财政部牵头,建立央地协同机制,指导试点单位工作。 主要内容:数据资产台账编制,资产登记,授权运营,收益分配,交易流通。 重点风险:严禁利用行政事业单位数据资产进行担保,新增政府隐性债务。严禁行政事业单位借授权有偿使用数据资产的名义,变相虚增财政收入。 重点解读 (一)编制数据资产台账 原文:(一)编制数据资产台账。基于数据资源目录,加强数据资源汇集、治理,提升数据资源质量,按照数据资产定义,组织梳理试点单位符合数据资产范围和确认条件的数据资源,形成规范化的数据资产管理台账,摸清数据资产底数。 内容解读:这部分内容强调建立规范化的数据资产管理体系,要求试点单位对数据资源进行全面梳理和质量提升。数据资产台账的编制需要基于数据资源目录,通过汇集和治理来确保数据质量,并严格按照数据资产的定义和确认条件进行筛选。 实际意义:数据资产台账的建立为机构管理数据资源提供了系统化的方法,有助于组织了解自身拥有的数据资产状况,为后续的数据运营和价值挖掘奠定基础。这就像企业的固定资产清单,能够清晰展示组织拥有的数据资源。 示例:假设某市政府部门需要对其掌握的市民服务数据进行梳理。通过编制数据资产台账,他们可以将分散在不同部门的市民信息、办事记录、服务评价等数据进行分类整理,建立起结构化的数据资产目录,有效识别可用于改善公共服务的高价值数据。 (二)开展数据资产登记 原文:(二)开展数据资产登记。支持有关主体将持有或控制的数据资产应登尽登,纳入授权运营范围的公共数据资产要严格按照资产管理要求进行登记。试点地方财政部门依托预算管理一体化系统,统一登记内容,规范登记程序,发放数据资产证书,作为数据资产对外授权使用的凭证。试点单位就数据资产基本信息、权利信息、使用信息、管理信息等登记资产卡片。稳步推进行政事业单位和国有企业所持有或控制的数据资产纳入本级政府国有资产报告工作,接受本级人大常委会监督。 内容解读:这部分内容确立了数据资产登记制度,要求相关主体将符合条件的数据资产进行全面登记。登记内容包括资产基本信息、权利信息、使用信息和管理信息等,并通过预算管理一体化系统进行统一管理,确保数据资产受到规范化监管。 实际意义: 数据资产登记制度的建立有助于明确数据资产的权属关系,为数据资产的合法使用和流通提供依据。同时,将数据资产纳入国有资产报告体系,强化了对公共数据资产的监督管理。 示例: 某国有医院拥有大量的医疗数据,通过数据资产登记系统,将患者就诊记录、治疗方案、医疗费用等数据进行规范化登记,获得数据资产证书。这不仅明确了医院对这些数据的管理权责,也为后续数据在医学研究、公共卫生决策等领域的应用提供了法律保障。 (三)完善授权运营机制 (三)完善授权运营机制。建立并完善数据资产授权运营管理制度和工作机制,明确授权运营条件,确保具备相应条件的主体,依法合规开展授权运营工作。公共数据资产对外授权运营,要严格按照资产管理权限,探索规范的资产使用和处置审批程序。结合实际探索采取整体授权、分领域授权、依场景授权等不同模式,开展数据资产的使用权和经营权授权。强化授权运营事中事后监管,建立定期评估和动态调整机制,根据市场运营效果,调整或收回授权运营事项。 内容解读:这部分内容建立了数据资产授权运营的制度框架,规定了授权条件和运营规则。政策支持采用整体授权、分领域授权和场景授权等多种模式,同时要求建立评估和监管机制,确保授权运营的规范性和效果。 实际意义:授权运营机制的建立为数据资产的市场化运营提供了可行路径,既保障了数据所有者的权益,又促进了数据价值的充分释放。动态调整机制的设置则有助于及时优化运营策略。 示例:某城市交通管理部门可以将其掌握的交通流量数据,通过场景授权的方式,授权给智慧交通服务提供商。服务商可以基于这些数据开发实时导航、交通预测等应用,而交管部门则定期评估运营效果,确保数据使用符合公共利益。 (四)健全收益分配机制 (四)健全收益分配机制。按照“谁投入、谁贡献、谁受益”原则,积极探索以协议形式约定各方从收益分配中获取合理比例等机制,实现在分配方式、激励措施等方面的灵活配置,保障各权利主体依法依规享有收益权利。数据资产各权利主体依法纳税并按国家规定上缴相关收益,由本级财政部门按规定纳入预算管理。试点期间,行政事业单位数据资产有偿使用和处置收入,按照本级国有资产和预算管理的相关规定执行。 内容解读:该内容确立了"谁投入、谁贡献、谁受益"的收益分配原则,鼓励通过协议形式约定各方收益比例,并要求将相关收入纳入预算管理体系。政策特别强调了行政事业单位数据资产有偿使用的规范管理。 实际意义:合理的收益分配机制激励了各方参与数据资产开发和利用的积极性,同时通过规范化管理确保了收益分配的公平性和透明度。这有助于形成可持续的数据资源开发利用模式。 示例:某政府部门与企业合作开发旅游大数据平台,可以通过协议明确规定,政府提供基础数据获得30%收益,企业负责技术开发和运营获得70%收益,并将政府收益部分纳入财政预算管理。 (五)规范推进交易流通 (五)规范推进交易流通。鼓励探索多样化价格形成机制,构建既有利于提高供给积极性,又能够实现可持续发展的公共数据资产价格形成机制。推动用于公共治理、公益事业的公共数据资产有条件无偿使用,探索用于产业发展、行业发展的公共数据资产有条件有偿使用。有关主体基于运营主体提供的公共数据资产,再次开发加工形成的数据产品或服务,价格由市场决定。鼓励充分发挥数据企业和第三方专业服务机构作用,通过数据交易所等机构加强供需对接,开展场内公开交易,促进数据资产有效流通、价值实现和信息公开。 内容解读:该内容鼓励建立多样化的价格形成机制,区分公共治理、产业发展等不同用途,采取有偿或无偿方式促进数据流通。同时支持通过数据交易所等专业机构开展规范化交易。 实际意义:差异化的定价机制既保障了公共数据的社会效益,又促进了数据要素市场的发展。专业交易机构的引入则为数据交易提供了规范化平台,降低了交易成本。 示例:某数据交易所可以为政府部门的环境监测数据建立分级定价机制,用于环境保护研究的可免费使用,而用于商业决策的则采用市场定价,企业可以通过交易所规范购买和使用这些数据。 总结 《数据资产全过程管理试点方案》旨在通过选择中央部门、企业和地方财政部门,围绕数据资产台账编制、登记、授权运营、收益分配和交易流通等环节,规范数据资产管理流程,形成有效模式。试点时间为2025至2026年,强调加强组织领导,形成经验,严格风险防控,以促进数字经济高质量发展和数据资产价值应用。 来源(公众号):DATA数据社区
2025-01-21 09:42 350
目录 1、公共数据产品概述 2、主要的公共数据产品及其应用 3、公共数据产品的未来趋势 一、公共数据产品概述 1. 定义公共数据产品 公共数据产品是指利用政府、科研机构、社会组织等公共部门通过调查、统计、监测等方式采集的,面向社会公众和行业用户开放共享的数据资源,通过加工、分析、挖掘、可视化等处理形成的信息产品和应用服务。 与其他数据产品相比,公共数据产品有以下几个显著特点:一是数据源头的公信力高,数据真实可靠;二是数据获取途径合法合规,符合国家相关法律法规要求;三是数据内容丰富多元,涵盖经济社会发展的方方面面;四是数据形态多种多样,包括结构化数据、非结构化数据、时空数据等不同类型。因此,开发利用好公共数据产品,对于提升政府治理能力、优化公共资源配置、驱动经济转型升级具有重要意义。 2. 公共数据产品的分类 公共数据产品可以从不同维度进行分类。从数据来源看,可分为政府数据产品、科研数据产品、社会数据产品等;从应用领域看,可分为经济金融、民生服务、城市管理、生态环境等不同行业的数据产品;从服务对象看,可分为面向政府部门、企事业单位、社会公众等不同用户群体的数据产品。当然,一个数据产品可能兼具多种属性,需要从多角度去理解把握。 二、主要的公共数据产品及其应用 1. 地理信息数据产品 地理信息数据产品是应用最广泛、市场需求最旺盛的公共数据产品之一。各级测绘地理信息部门通过卫星遥感、航空摄影、野外调绘等方式获取了海量的地理空间数据,在此基础上研发了一系列数字地图产品和位置服务,为各行各业提供了不可或缺的数据支撑。 (1)数字地图的建设与应用 数字地图是以数字形式表示的地球表面及其附属要素的地图,通过数字化、矢量化、符号化等处理形成能够在计算机上显示和使用的电子地图。数字地图产品主要包括基础地理信息数据、交通地名地址数据、三维地形地貌数据等,广泛应用于国土资源管理、城乡规划、应急管理等领域。例如,在国土空间规划中,利用高分辨率卫星影像和数字高程模型等数据,可以精确测算土地利用现状和开发强度,为科学编制规划提供依据。在应急救援中,基于数字地图可以快速查询事发地周边的道路、水系、居民点等信息,并模拟灾情的发展趋势,为科学决策和救援行动提供支撑。 (2)地理编码服务的提供与使用 地理编码(geocoding)是将描述性的地址信息(如街道号、地名等)转换为空间坐标(如经纬度)的过程。地理编码服务通过整合全国范围内的地址数据,建立地址-坐标的映射关系,使得用户能够快速、准确地完成地址匹配和定位。地理编码在移动出行、电子商务、即时配送等领域有广泛应用。例如,在网约车服务中,用户提交上车地址后,系统通过调用地理编码服务将地址转换为经纬度坐标,再匹配周边的车辆,从而实现高效派单。在外卖配送中,商家和骑手通过地理编码服务对配送地址进行标准化,再结合路径规划服务优化配送路线,提高配送效率。地理编码服务还可以用于客户数据的空间可视化分析,帮助企业洞察市场格局、优化网点布局等。 (3)路径规划与导航的实现 路径规划是指根据设定的起点、终点和出行方式,利用路网数据和算法模型,自动生成最优出行路线的过程。数字地图产品商通过整合道路、交通、地名地址等多源数据,构建高质量的路网模型,并研发多种路径规划算法,可以为用户提供驾车、公交、步行等多种出行方式的路线推荐。在路径规划的基础上,匹配车辆的实时位置信息,再叠加路况、限行等动态交通信息,就形成了车载导航系统,引导驾驶员沿最优路线到达目的地,并根据实际路况动态调整路线。路径规划与导航服务在交通运输、物流配送、旅游出行等领域应用广泛。 例如,在货运物流领域,利用路径规划可以科学制定运输计划,合理调度车辆,缩短运输时间,节约运输成本。一些物流企业将订单信息、仓储网点、车辆信息等接入路径规划系统,实现了调度业务的自动化和智能化。在旅游出行中,游客通过手机地图 APP 的路径规划功能,可以方便地查询景点之间的推荐路线,制定合理的出游计划。一些景区还提供电子导游服务,游客通过扫描景点二维码,就可以在手机上呈现丰富的语音讲解、图片视频、实景导航等内容。 2. 人口统计数据产品 人口统计是国家统计局组织开展的重大国情国力调查,通过全面系统地采集人口规模、结构、分布、流动等方面的数据,为党和政府制定国民经济和社会发展政策、规划提供科学依据。人口普查数据、流动人口数据、人口抽样调查数据等是重要的人口统计数据产品,在政务管理、商业决策、学术研究等方面发挥着重要作用。 (1)人口普查数据的加工与发布 人口普查是以国家为单位,以户为调查单元,对全国境内的居民及其社会经济特征进行的一次全面调查。我国从1953年开始,每十年进行一次人口普查。普查所获取的海量人口数据,需要经过审核、汇总、交叉分析等一系列处理,形成不同地区、不同层级的人口数据库和统计资料,再通过人口普查数据发布平台等渠道对外公布。 人口普查数据产品的典型应用包括:制定国民经济和社会发展五年规划,测算国内生产总值、人均收入等宏观经济指标;推算城镇化率、老龄化率等社会发展指标;核定各地人大代表名额、划分选举区;调整行政区划、优化公共资源配置;开展人口预测和政策模拟等。例如,根据第七次全国人口普查数据测算,2020年我国60岁及以上人口占比约为18.7%,首次突破2亿大关。各地据此完善养老保障政策,扩大养老服务供给,积极应对人口老龄化挑战。 (2)人口流动数据的采集与分析 伴随工业化、城镇化的快速推进,我国人口跨区域流动日益频繁。准确掌握流动人口的规模、去向、特征等信息,对于编制区域协调发展规划、提供均等公共服务、维护社会和谐稳定具有重要意义。公安部门利用户籍管理系统采集人口迁移数据,交通运输部门利用铁路、民航售票系统采集客流数据,通信运营商利用手机信令数据分析人口流动轨迹,各类数据汇聚后形成了较为全面的人口流动数据产品。 人口流动数据的典型应用包括:研判节假日客流高峰特点,调配运力资源,引导错峰出行;测算城市常住人口和户籍人口,推算城镇化率和流动人口规模;分析重点流动人口群体的居住、就业状况,提供个性化公共服务;评估重大疫情、自然灾害等突发事件对人口流动的影响,优化应急管理和风险防控措施。例如,2020年初新冠肺炎疫情暴发后,许多城市利用人口流动大数据及时识别中高风险地区,精准划定管控范围,向在沪归国人员推送健康提示,为疫情防控工作提供了数据支撑。 (3)人口结构数据的挖掘与应用 人口结构数据主要包括人口的性别、年龄、民族、受教育程度、职业、婚姻状况等信息,一般可以通过人口普查、人口抽样调查、社会经济调查等渠道采集。通过深入挖掘人口结构数据,可以洞察人口变动趋势、社会分层状况、代际差异特点,为制定有针对性的公共政策和商业决策提供参考。 人口结构数据的典型应用包括:根据人口年龄结构预测未来养老金缺口,推进养老保险制度改革;根据人口受教育程度分布优化教育资源配置,促进教育公平;根据婴幼儿数量增长情况规划母婴健康服务网络,完善生育政策;根据家庭结构变化趋势预测住房需求,引导房地产市场健康发展。例如,国家统计局公布的数据显示,2020年我国大学生毕业生新增就业人数达855万,教育程度较高。一些城市结合毕业生专业特点,积极搭建就业服务平台,举办网上招聘会,开发更多适合年轻人的就业岗位,提升了人力资源配置效率。 3. 经济金融数据产品 经济金融数据产品主要包括反映宏观经济运行、行业发展趋势、市场价格变动、企业生产经营等状况的数据资源,具有及时性强、权威性高、覆盖面广等特点。这些数据产品既包括政府有关部门发布的官方统计数据,也包括金融机构、科研单位、第三方数据服务机构提供的市场化数据。 (1)宏观经济数据的监测与预测 宏观经济数据主要反映一国整体经济运行状况,包括经济增长、就业、物价、国际收支等指标。政府有关部门定期发布的统计公报、经济运行简况、经济形势分析等,是最重要的宏观经济数据产品。一些金融机构、咨询公司、大学等,也会结合官方数据和市场调查数据,编制PMI指数、消费者信心指数等宏观经济领先指标,开展短期经济预测。 宏观经济数据在宏观调控、产业规划、投资决策等领域有广泛应用。例如,央行根据经济增长和通胀数据动态调整货币政策,及时应对经济下行压力。发改委根据经济运行情况调整产业结构,着力培育新的经济增长点。企业则利用宏观经济预测结果科学安排生产经营活动,准确把握市场机遇。 (2)行业经济数据的整合与分析 行业经济数据反映特定行业领域的运行态势,包括行业总产值、投资规模、进出口贸易、市场价格等指标。商务部、工信部、农业农村部等行业主管部门会定期发布行业统计数据,行业协会、研究机构、咨询公司也会提供相关的市场调研数据。通过整合分析行业经济数据,有助于企业分析判断行业发展趋势、竞争态势,并制定相应的经营策略。 例如,2020年疫情对餐饮、旅游、交通等行业冲击较大。商务部会同国家统计局评估疫情对餐饮行业的影响,出台针对性扶持政策。餐饮协会搜集会员单位复工复产数据,分享行业自救经验。龙头餐企利用大数据技术分析顾客消费行为变化,调整营销策略,开拓外卖、零售等新业务。各方联动,共同推动餐饮行业加快回暖。 (3)企业财务数据的比较与评估 企业财务数据直接反映企业的资产负债、盈利能力、现金流等状况,主要包括资产负债表、利润表、现金流量表等会计报表。上市公司必须定期披露财务报告,向社会公众提供真实、准确、完整的财务信息。一些金融信息服务商还会汇总个体企业的财务数据,编制行业财务指标,为投资者和监管者提供参考。 企业财务数据的典型应用包括:通过纵向对比分析企业财务状况变化趋势,预判企业未来经营风险;通过横向比较分析不同企业的盈利水平、资产质量,优选投资标的;通过比对同类企业的成本费用构成,找出挖潜增效空间。例如,某投资机构利用上市公司财报数据,分析对比医药制造业的研发投入强度、营收增速等指标,结合行业政策、技术趋势等因素,优选了一批成长性好、市场前景广阔的创新药企,并给予重点投资。 4. 交通运输数据产品 交通运输部门掌握的数据资源品类丰富、时效性强,主要包括铁路、公路、水路、航空等运输方式的基础设施、运输工具、客货运量、物流供应链等数据,以及路况、事故、气象等与交通相关的动态信息。通过采集、融合、共享这些数据,可以生成多样化的交通运输数据产品,服务于综合交通运输体系建设、智慧交通管理、物流组织优化等领域。 (1)实时路况数据的采集与发布 路况信息的及时性和准确性是影响出行效率和安全的关键因素。借助视频、雷达、电子车牌等路侧设备以及浮动车数据,可以实时采集道路交通流量、车速、拥堵指数等路况数据,并通过路况信息发布平台、手机地图APP等渠道进行公开。 实时路况数据在交通管理、出行服务等领域应用广泛。例如,交管部门利用路况数据动态调整信号配时方案,引导车流疏导,缓解交通拥堵。导航服务商根据实时路况信息为驾驶员智能推荐最优出行路线。一些城市还利用路况大数据进行交通需求预测、交通规划仿真等,为重大交通基础设施建设、重要活动交通组织提供科学决策支持。 (2)公共交通数据的整合与应用 公共交通数据主要包括公交线路、站点、班次、客流、IC卡刷卡记录等,分散在不同的业务系统中。通过数据采集和融合,建立统一的公交大数据平台,可以全面支撑公交服务规划与调度、客流预测与引导等管理应用。 例如,利用公交IC卡数据分析不同站点、线路在不同时段的客流强度,优化公交线网布局,减少空驶率。利用站点客流预测模型动态调整车辆投入,缓解"公交拥挤"问题。在突发事件应急处置中,实时监测周边公交客流变化,及时采取应急接驳等措施。在重大活动公共交通组织中,提前预测客流高峰,合理设置公交专用道和接驳站点。 (3) 物流配送数据的优化与决策支持 物流配送效率直接影响配送成本和客户满意度。通过集成订单、运力、路径等数据,优化配送线路、提高装载率,可以显著提升物流效率。一些互联网平台聚合海量的物流需求数据和运力资源数据,为商家、货主、车主提供智能匹配服务,提高物流行业整体运行效率。 例如,菜鸟物流利用大数据算法优化仓储操作和干线运输,仅用3年时间就将旗下的2300多个运营中心连接成服务范围覆盖全国的物流网络。京东物流自主研发了包裹路由、运力调度、机器人分拣等智能系统,大幅提升了自动化、智能化水平。顺丰即配根据客户需求预测、路径规划、包裹跟踪等数据,为客户提供高时效、高质量的即时配送服务。这些创新性的物流数据应用,不断刷新着人们的物流时效体验。 5. 环境气象数据产品 生态环境、气象水文等领域积累了大量观测监测数据,这些数据对于污染防治、防灾减灾、应对气候变化、保障人民生命财产安全具有重要作用。近年来,生态环境部、气象局等部门加强环境气象数据共享开放,研发了一系列面向政府、公众、企业等不同主体的数据产品,在环境管理、气象服务、公众科普等方面发挥着越来越重要的作用。 (1)空气质量数据的监测与预警 环保部门通过遍布全国的空气质量监测站,实时采集二氧化硫、二氧化氮、PM2.5等空气污染物浓度数据,形成全国空气质量实时发布系统。同时,利用大气污染扩散模型,结合气象预报数据,可以对未来一段时间的空气质量进行预测预警。空气质量数据服务于生态环境治理和民生保障。 例如,北京市依托大气污染源动态管控平台,通过污染物排放清单、污染过程模拟、高污染预警等数据分析,精准实施重污染应急管控措施。许多城市发布空气质量预报,提示公众在重污染天气减少户外活动,关注身体健康。一些环保企业利用空气质量大数据,优化环保设施布局,提供环境咨询等专业服务。 (2)水资源数据的管理与调度 我国是水资源短缺的国家,节约用水、科学调度水资源对保障经济社会可持续发展具有重要意义。水利部门利用卫星遥感、水文监测站等手段,获取全国江河湖库水量、水质、供用水量等数据,建立水资源管理信息系统。汇聚数据后,可以分析流域来水规律、用水结构,优化水资源配置,提高水资源利用效率。 例如,黄河流域管理机构利用调度决策支持系统,通过水雨情预报、水库群联合调度、灌溉需水预测等数据分析,优化上中下游梯级电站和千万亩农田的供水调度,在保障防洪和供水的同时最大限度地发电,创造了显著的经济效益。在应对气候变化、保护水生态等方面,水资源数据也发挥着关键作用。 (3)气象预报数据的分析与服务 准确的天气预报可以最大限度地降低气象灾害的影响。气象部门利用气象卫星、雷达、自动站等多源数据,运行数值天气预报模式,生成全国和区域尺度的气温、降水、风向风速等要素的预报产品。与此同时,针对暴雨、干旱、雷电等灾害性天气开展专题预警服务,并通过手机、电视、广播等渠道向社会发布。 气象预报数据服务于防灾减灾和生产生活。例如,气象部门会商防汛、水利、应急等部门,及时发布暴雨预警,提前转移危险区域群众,最大限度减少灾害损失。农业部门利用气象预报数据指导农事活动,提高农业生产的科学化水平。电网公司根据雷电预警信息优化输电线路检修计划,最大限度地保障电网安全稳定运行。 6. 医疗卫生数据产品 医疗卫生数据资源丰富、专业性强,涉及疾病控制、公共卫生、医疗服务、医疗保障等多个领域。通过整合人口健康信息、电子病历、医保结算、药品流通等数据,可以洞察疾病谱变化趋势、合理配置医疗资源、加强药品监管、完善医保支付政策,推动"健康中国"战略的实施。 (1)疾病监测数据的收集与分析 疾病预防控制机构通过传染病网络直报系统、院内感染监测系统等,实时收集传染病疫情、院感病例等数据,及时掌握疾病流行趋势,为疾病防控决策提供支撑。例如,2020年疫情发生后,疾控机构利用"信息化助力疫情防控"系统,通过疫情监测、流行病学调查、密切接触者管理等数据分析,精准识别风险人员,阻断疫情传播。 (2)医疗资源数据的优化配置 医疗资源配置不平衡、不合理是制约民生发展的短板之一。卫生健康委、医保局等部门汇聚医疗机构、医务人员、医疗设备、诊疗项目、药品耗材等数据,建立区域医疗资源管理平台,有助于分析不同地区医疗资源的数量、质量、结构,找出资源配置不合理的薄弱环节,为深化医疗供给侧改革提供依据。 例如,江苏省依托区域医疗资源监管信息系统,利用医疗资源数据进行可及性分析,并根据常住人口、患病率等因素,测算并优化调整区域医疗资源配置,进一步缩小省内和城乡医疗资源配置差距。浙江省利用"最多跑一次"改革,打通医疗、医保、医药数据,推行"一站式"结算,减轻患者负担。 (3)健康管理数据的应用与服务 随着"互联网+医疗健康"的推进,可穿戴设备、智能硬件、移动医疗等创新应用不断涌现,产生了海量的用户生理、行为等数据。通过对这些数据的采集、管理、分析,可以为个人提供全方位、动态化、精细化的健康管理服务。 例如,平安好医生利用人工智能技术,通过海量病历数据训练智能导诊模型,可以根据用户的症状、体征等信息,快速匹配疾病,推荐就诊科室,提高分诊效率。一些基层医疗机构利用家庭医生签约服务平台,汇聚签约居民的体检报告、诊疗记录、用药情况等数据,从而有针对性地提供健康教育、慢病管理、预约诊疗等服务,切实提升居民健康水平。 三、公共数据产品的未来趋势 随着数字政府、智慧城市、数字经济等战略的深入实施,公共数据产品已经成为提升国家治理效能、优化公共服务供给、培育经济发展新动能的重要抓手。未来,公共数据产品开发将呈现以下发展趋势: 数据融合与协同: 打破自然资源、交通、医疗、金融等领域数据壁垒,推动跨层级、跨部门、跨区域数据汇聚共享,提升公共数据的关联性、丰富性和价值密度。通过数据融合,创新开发主题库、专题库等融合数据产品,支撑产业协同、城市协同、区域协同。 智能化与个性化服务: 利用人工智能、大数据分析等技术,开发智能预测预警、辅助决策、精准画像等智能应用,提供更加精准、高效的公共服务。针对不同群体的个性化需求,提供个性化的信息推送、交互体验等服务,不断提升用户体验。 开放共享与社会参与: 进一步扩大数据开放共享的深度和广度,构建全国统一的公共数据开放体系。鼓励社会力量参与公共数据产品开发,培育数据要素市场。营造全社会共同利用、共同治理数据资源的良好生态。发挥数据资源的放大、溢出和倍增效应,催生更多数据驱动的创新应用。 来源(公众号):DATA数据社区
2025-01-20 10:31 214
目录 1. 开展数据资源全面梳理 2. 开展数据资源质量评估 3. 规范化识别数据资产 4. 规范化编制数据资产台账 一、开展数据资源全面梳理 数据资源是编制数据资产台账的基础。组织须在全局视角下,以业务活动和管理活动为导向,系统全面地梳理汇总散落在各处的数据资源,并依据一定的标准规则进行分门别类,这是摸清数据家底的必由之路。 1.1 厘清数据资源范围 组织的数据资源是海量的、多源异构的,存在于业务系统、办公系统、运维监控日志等各类IT系统中,呈现出碎片化的特点。开展数据资源梳理首先需要明确梳理对象和范围。一方面,从横向来看,既要覆盖总部各部门,也要辐射分支机构,既要涵括在线的结构化数据库,也要兼顾离线的非结构化数据。另一方面,从纵向来看,不但要梳理当前应用的业务数据,也要考虑归档的历史数据。唯有梳理对象全面系统,才能最大程度还原组织的数据资源全貌。 1.2 盘点现有数据资源 在明晰梳理范围后,组织需要动员各单位负责人开展数据普查,对本单位应用系统中的数据表/文件进行逐一登记造册,包括数据内容、数据量、数据格式、更新频率、所在位置等关键要素。鼓励采用问卷调查、座谈讨论、一对一访谈等方式,多渠道获取数据资源的静态信息和动态信息。同时,组建数据资产管理团队,利用数据发现工具扫描主要业务系统,提取数据资源的技术元数据,并与单位填报的数据资源信息表进行比对校验,以期获得全面准确的数据资源盘点清单。 1.3 对数据资源进行分类 面对盘点采集到的海量数据资源,还需要进行系统梳理分类,理出头绪。一般可基于数据的业务属性、管理属性、安全属性等开展多维度分类: 1. 基于业务属性,可将数据资源划分为人力资源数据、财务数据、客户数据、产品数据等; 2. 基于管理属性,可将数据资源划分为业务主题数据、共享交换数据、统计报表数据、归档数据等; 3. 基于安全属性,可将数据资源划分为公开数据、内部数据、秘密数据、机密数据等。基于科学的分类标准,将松散分布的数据资源进行规整归类,能够便于组织从全局视角分析其结构性特征,也为后续的数据资产评估、共享开放管理等提供基础支撑。 二、开展数据资源质量评估 海量的数据资源并非全都能够作为数据资产登记造册,其能否转化为数据资产,很大程度上取决于数据质量的高低。组织要根据数据资产的内在价值属性,制定科学合理的数据质量评估指标,开展数据资源质量评估,剔除劣质数据,筛选优质数据资产。 2.1 明确数据资产价值评估维度 数据的价值属性是数据资产的本质特征。我们通常从以下几个维度来考量数据资产的价值:一是数据的基础属性,如数据的完整性、准确性、时效性、一致性等,直接决定数据产品的质量;二是数据的稀缺性,独特性强、替代品少的数据价值相对较高;三是数据的关联性,不同来源数据的关联整合能够产生更大价值;四是数据的应用价值,在业务经营管理和数据要素市场中应用广泛的数据价值更高。因此,组织要在全面评估数据资产多重价值属性的基础上,构建起科学规范的数据资产价值评估指标。 2.2 制定数据质量评估标准 数据质量是数据资产价值的决定性因素,直接影响数据应用的有效性。为客观评判数据资源的质量优劣,支撑数据资产遴选,组织须针对不同类型的数据资源,分别制定结构化数据和非结构化数据质量评估的标准规范。一般来说,结构化数据质量评估的关键指标包括:完整性、准确性、一致性、及时性、唯一性等;针对非结构化数据,还应考虑可读性、相关性、可解释性等指标。在明确评估指标后,各指标还需设定相应的阈值标准,以判定数据资源是否达到规定的质量要求。同时,建立健全数据质量评估的规章制度,明确评估的流程方法、职责分工、结果应用等,确保数据质量评估工作持续规范地开展。 2.3 开展数据资源质量评分 质量评估标准建立后,组织就可以对全量的数据资源开展质量评估工作。一方面,各数据提供单位对本部门的数据资源开展自评,对照质量评估指标,逐条打分,计算数据资产的质量评分;另一方面,组织抽调业务骨干和数据专家组成评估小组,采取抽样或者全面评估的方式,对各单位的数据资源质量开展复核评分,将自评得分和复评得分进行加权平均,形成数据资源的最终质量评分。数据资源质量评分可作为数据资产遴选的重要依据,当评分达到规定标准时,该数据资源可被确定为组织的数据资产;当评分较低时,组织要及时反馈,并督促相关单位开展数据质量的清洗、修复、完善,直至符合数据资产的质量要求。 三、规范化识别数据资产 数据资源经过盘点分类、质量评估后,还需要进一步从中识别可被纳入数据资产管理范畴的对象,明确界定数据资产的内涵外延,规范化梳理形成数据资产目录,这是编制数据资产台账的重要基础。 3.1 明确数据资产的定义 什么是数据资产?由于缺乏统一规范,不同组织对数据资产有不同理解。一般而言,数据资产是以数据资源为基础,经过标准化的采集、汇聚、治理、加工,最终可被广泛应用,产生实际效益或潜在价值的数据产品。这一定义揭示出数据资产的本质特征:一是数据资产的物理载体是数据;二是数据资产须经过标准化处理形成;三是数据资产具有广泛的应用性;四是数据资产能够产生现实效益或潜在价值。因此,识别数据资产要以数据资源为基础,同时还要考察其质量、标准化程度、应用广度以及价值属性等多重因素。 3.2 确立数据资产的判别标准 基于数据资产的概念内涵,组织要建立一套规范的数据资产判别标准,明晰哪些数据资源可被纳入数据资产范畴。通常采用的判别标准如下: 1. 数据资源的准确性、完整性、一致性、时效性等数据质量指标达到规定标准; 2. 数据资源已经过治理加工,并采用组织认可的技术标准、数据标准和元数据标准; 3. 数据资源在全组织范围具有通用性,能够支撑共性业务的开展; 4. 数据资源能够为组织创造实际效益或潜在价值,例如提升经营管理效率、优化业务流程、创新产品服务等。只有全面满足上述标准的数据资源才能被视作组织的数据资产。各单位可对照数据资产判别标准,逐一评估筛选本单位的数据资源,形成本单位的数据资产识别清单。 3.3 形成规范的数据资产目录 组织汇总各单位的数据资产识别清单,经过论证评估、去重合并,最终梳理形成统一规范的组织级数据资产目录。数据资产目录一般采用主题-类目-表级的三级目录结构,并遵循统一的命名规则、编码规则。在一级主题目录中,可根据组织的核心业务,设置人力资源、财务资源、业务运营等主题;在二级类目目录中,可根据各主题的分类需求,划分人员、组织、考勤等类目;三级表级目录中则是一张张具体的数据表或文件。这样的目录结构清晰规整,为数据资产全生命周期管理提供了基本框架。 3.4 构建数据资产管理模型 在明确界定数据资产、梳理形成目录的基础上,组织还需要进一步构建数据资产管理的框架模型,包括: 1. 基础元数据:数据资产台账的基础信息,如资产名称、资产编码、数据项、数据量、更新频率、责任部门等; 2. 技术元数据:数据资产的技术属性,如字段名称、字段类型、字段长度、主键外键、索引等; 3. 业务元数据:刻画数据资产的业务属性,如业务口径、业务规则、使用部门、共享范围等; 4. 质量元数据:反映数据资产质量现状,如完整性、准确性、唯一性等数据质量评估指标值; 5. 安全元数据:确保数据资产安全可控,如敏感度标识、脱敏规则、访问权限、使用痕迹等; 6. 价值元数据:体现数据资产的应用价值,如资产等级、访问频次、使用评价、产生效益等。 建立全面系统的元数据框架,能够从不同视角对数据资产进行刻画,为数据资产全生命周期管理提供重要依据,是数据资产管理走向精细化、规范化的必由之路。 四、规范化编制数据资产台账 数据资产目录梳理完毕后,组织就可以规范化编制数据资产台账了。数据资产台账作为管理数据资产的电子"账本",直观记录了数据资产的家底情况,是开展数据资产管理的重要工具。 4.1 设计数据资产台账信息项 数据资产台账通过一系列结构化的信息项对数据资产进行描述管理。因此,台账信息项的设计直接关系到数据资产管理的广度和深度。一般来说,数据资产台账信息项的设计要全面覆盖数据资产管理模型的各项元数据,同时还要兼顾全组织的管理需求和未来发展需要。在实际设计过程中,组织一方面要全面梳理各业务部门和管理部门对数据资产管理的共性需求,争取将各方关注的重点内容纳入台账进行规范化管理;另一方面要高瞻远瞩,适度考虑支撑数据资产质量持续改进、价值深度利用、安全管控等未来发展需要。通过需求引导、头脑风暴、参考借鉴等方式,设计形成全面系统、满足多方需求的数据资产台账信息项。 4.2 规划数据资产台账结构 在明确数据资产台账信息项后,还需要进一步设计台账的整体结构。一般采用主档和副档相结合的方式:在主档中登记数据资产的基础信息,作为数据资产目录清单;在副档中分类登记数据资产的其他管理信息,包括技术信息、业务信息、质量信息、安全信息、价值信息等,与主档形成一对多的关系。主档可直接利用已形成的数据资产目录,而副档则须依据元数据的分类进行结构化设计,形成独立的关联表。通过主副档的有机结合,既可对数据资产进行分类分级管理,又能保证数据资产信息的集中统一、关联分析。 4.3 开展数据资产台账信息采集 高质量完整的信息是数据资产台账发挥效用的前提。各数据资产提供单位作为第一责任主体,要全面收集所辖数据资产的台账管理信息,并确保真实性、准确性、完整性。一方面,提供单位要组织开展数据普查,通过问卷调查、人工填报等方式,采集数据资产的业务属性、管理属性等人工可获取的信息;另一方面,要通过技术手段提取数据资产的技术元数据,运行数据质量分析工具评估数据资产质量现状,并适时开展数据资产价值评估。同时,提供单位还要建立台账信息定期更新机制,明确各项信息的更新周期、更新流程、责任人员,确保台账信息的持续准确、动态更新。 4.4建立数据资产台账编制规范 为保证数据资产台账编制过程规范有序,成果标准统一,组织要制定数据资产台账编制规范,明确编制的原则、流程、方法以及成果要求。编制规范一般包含以下主要内容:一是编制原则,如全面性、规范性、一致性、动态性等;二是编制主体,明确牵头部门、配合部门以及各自职责;三是编制流程,包括启动、采集、录入、审核、发布等环节的时间节点和交付成果;四是编制方法,对台账的填报、录入、校验方式进行详细说明;五是成果要求,规定台账的填报格式、命名规则、质量标准等。编制规范的建立,能够指导和规范数据资产台账的编制活动,为打造高质量的数据资产管理"台账"提供制度保障。 数据资产台账作为组织数据资产管理的核心工具,其编制是一项系统、持续的工作。组织需要以高度的责任心和耐心,一步一个脚印地开展,才能编制形成全面、准确、规范的数据资产台账。同时,台账的编制不是目的,而是实现高效管理、充分利用数据资产的手段。组织在台账编制过程中,还要重视对台账的应用实践,在实践中不断总结优化,持续提升数据资产管理的规范化、精细化水平。唯有如此,才能充分发挥数据资产的价值功效,为组织数字化转型升级提供坚实的数据底座。 来源(公众号): DATA数据社区
2025-01-16 11:08 299
热门文章