全部类型 AI+大数据数据中台 API平台数据交换数据集成数据质量数据标准数据安全行业好文数据政策

AI大模型的数据基础

2025-01-24 16:08 浏览量：179

1.大模型对多源异构数据的渴求

2.大模型数据处理流程

3.行业实践:GPT背后的数据体系

一、大模型对多源异构数据的渴求

大模型如GPT-3、PaLM、OPT等,其超大规模参数(百亿到万亿量级)需要海量数据支撑。单一数据源难以满足如此规模的数据需求,必须开辟多元数据源。而异构数据源的融合利用,对数据工程提出更高要求。让我们深入几类主要数据源的采集技术细节。

1. 爬虫技术:数据采集

对于文本大模型而言,网络文本语料可谓取之不尽。以GPT-3模型为例,仅Common Crawl一项就采集了4年,近800GB的原始网页数据。网络爬虫技术是采集如此规模语料的主力军。主流的爬虫系统可分为以下几类:

1）通用爬虫:如Scrapy、Heritrix等,采用广度优先策略,从若干Seed URL出发,递归爬取后继链接,直至达到停止条件。

通用爬虫的优势在于覆盖广,适合爬取海量页面组成通用语料库。但因缺乏领域针对性,难以保证信噪比。为了从爬取过程中动态调整策略,出现了一些智能化爬虫:

Reinforcement Crawler:将下载过程建模为强化学习,Agent通过Trial-and-Error不断优化策略,以获取高质量页面。

Learning Crawler:通过文本分类、聚类等模型自动甄别页面质量。微软曾提出ACHE等学习型爬虫框架。

此外,为了对抗反爬,通用爬虫往往需要庞大的IP代理池轮换请求,并处理好频控、Cookie等问题。对于登录页面,还需要自动化登陆流程。这也进一步提高了工程难度。

2）垂直爬虫:针对特定网站定制的爬虫,如新浪微博爬虫、抖音爬虫等。其特点是利用Xpath、CSS选择器等方式,精准提取页面关键信息。如判别一个微博账号是否为僵尸粉,可提取其粉丝数、互动数等特征。

垂直爬虫的价值在于,充分利用了页面结构信息,数据准度更高。同时还可根据业务逻辑设置参数,如只爬取财经新闻,营销类微博等。另外,很多反爬技术如字体反爬、JS加密都针对通用爬虫,垂直爬虫可通过定制规避。但其缺点也很明显:适用范围窄,通用性差。每个网站要单独定制,开发成本高。如果网站频繁改版,规则还需跟着升级。这限制了其批量生产的能力。

3）动态爬虫:传统爬虫直接请求URL,返回HTML,只能获取静态页面。但当今很多网站采用AJAX、Vue等前后端分离技术,页面通过JS动态加载,给爬虫带来不小挑战。

为了爬取动态网页,出现了一系列动态渲染爬虫。典型方案有:

i 无头浏览器:Headless Chrome/Firefox等,在无UI的环境下模拟真实浏览器行为。可执行JS获取动态内容。

ii WebDriver:Selenium等自动化测试框架,通过编程控制原生浏览器。如PhantomJS、Pyppeteer等。

iii HTTP拦截:Charles、Fiddler等抓包工具,拦截XHR请求,直接获取Ajax数据。

动态爬虫在众多场景下不可或缺,如电商比价、舆情监测都离不开其支持。动态爬虫的缺点是:启动浏览器内核开销大,性能远不及静态爬虫;被反爬风险也更大。

另外,为了提高爬虫的鲁棒性,往往需要引入代理调度中间件如Crawlera,处理好流量控制、故障转移、任务调度等。主流的分布式爬虫框架包括:Frontera、Scrapy-Redis、DistributedCrawler等。

需要强调的是,爬虫作为公网数据获取的主要手段,必须严格遵守Robots协议,合法合规地开展数据采集。对版权数据更应谨慎对待,必要时需要获得站长授权。总的来说,开发一套高质高效且合规的爬虫系统绝非易事,需要综合软硬件、法务等多方面考量。

2. 语音视频大数据的采集与挖掘

随着多模态大模型的崛起,语音、视频数据的重要性愈发凸显。如微软的Tango、Meta的CAIRa等大模型,都需要大量带文本标注的语音视频数据。让我们看看这一领域的主流数据采集方案:

1) 视频网站批量下载:YouTube、BiliBili等视频网站拥有海量UGC视频,是语音视频数据的重要来源。批量下载工具主要分两类:

i 站点视频下载器:You-Get、Youtube-dl等,支持数百个主流站点。缺点是不能批量下载,也不能定制视频清晰度等参数。

ii 站点视频爬虫:利用爬虫框架如Scrapy,批量获取视频链接,结合ffmpeg等下载。可完全定制下载策略。一般采用站点视频爬虫方式,获取元数据如标题、简介构成配套的文本语料。下载后的视频还需经过内容审核,滤除低质、违规视频。这需要借助于视频内容理解、NSFW检测等AI技术。

2) 音视频众包:与文本类似,带标注的语音数据也离不开众包。但相比文本,语音标注的成本更高,专业性更强。需要标注人员同时具备语言和领域知识,才能准确转写专业词汇缩写等。

另一方面,语音数据的隐私性更强。众包过程必须对原始数据进行脱敏,去除涉及隐私的片段。同时要对标注人员的背景进行审查,签署保密协议。一些敏感领域的语音数据如军事、医疗,必须在内部完成标注,不能对外众包。

Mozilla的Common Voice就是一个优秀的语音数据开源项目。通过志愿者在线录制并验证,目前已收集了100+语种,数千小时的语音数据。阿里、搜狗等国内企业也通过用户手机App、输入法等工具,积累了大规模中文语音数据集。

一提到语音数据采集,ASR(语音识别)是绕不开的话题。近年来,ASR技术快速发展,为语音文本数据的自动化生产提供了可能。如利用Kaldi、Wav2Letter等开源工具包,可对语音数据进行自动转写,大幅降低人工转写成本。当然,ASR转写仍难以完全替代人工,尤其是方言、口音较重的语音。一种常见做法是,先由ASR粗略转写,再由人工校对修订。阿里等企业在其语音助手中大量采用这一方案。

除了语音转写,语音数据的降噪、分割也是重要的预处理环节。工业级的语音处理流水线需要包括:

i 静音检测:Webrtc的VAD、TensorFlowVAD等,滤除无效静音片段。

ii 回声消除:Speex、WebRTC等,去除线路回声干扰。

iii 语音降噪:Audacity、Sox等,去除背景噪音。

iv 说话人分离:Conv-TasNet、DPRNN等,将多人语音分离为独立音轨。

视频数据的采集要复杂得多。原因有二:一是视频数据规模更大,采集成本高。二是视频语义信息更丰富,需要更复杂的处理。主要的视频数据采集方法包括:

i 专业采集:搭建视频采集棚,由专业人员拍摄制作。数据质量有保障,但成本很高。一些自动驾驶公司采用此方案采集路测视频。

ii 众包采集:利用视频众包平台,如AWS的Mechanical Turk,发布拍摄任务。质量略逊于专业采集,但成本更低,更适合通用数据采集。

iii 监控视频采集:从已有监控系统提取视频数据。如商汤科技从社区监控采集人流、车流数据。这种方式成本最低,但对数据隐私和版权要格外小心。

采集到的原始视频需经过一系列预处理,才能输入到视觉算法中。主要的视频预处理技术包括:关键帧提取:

i 提取关键帧,滤除冗余帧。如PySceneDetect、Frame-Extractor等。

ii 目标检测:检测并定位视频中的目标物体。如YOLOv5、EfficientDet等。

iii 目标跟踪:在不同帧间标识同一目标物体。如DeepSORT、FairMOT等。

iv 动作识别:识别视频中的人物动作。如TSN、X3D等。经过这些处理,原始视频被结构化为一系列带标注的图像和物体轨迹,为下游任务如视频分类、问答奠定了基础。可以说,高效采集语音视频数据离不开AI本身。数据采集和模型训练相互促进,形成正向循环,这是多模态AI发展的内在逻辑。

3. 知识图谱:结构化知识库

知识图谱是以RDF三元组形式,系统描述概念、实体及其关系的语义网络。知识图谱是认知智能的重要基础,如智能问答、推荐系统等都依赖其支持。知识图谱构建的第一步,是海量网页文本中提取实体和关系,形成初步的实体关系图。这一过程也称为知识抽取,技术路线主要有:

1) 基于模板的知识抽取:

i 手工模板:专家定义一系列模板,如"A是B的C"等。该方法构建成本高,覆盖面窄,仅适用于特定领域。

ii 自动模板:利用Snowball、DIPRE等算法自动生成模板。先由少数种子实例出发,迭代学习新模板和新实例。

2) 基于深度学习的知识抽取:

i 命名实体识别:利用BiLSTM-CRF、BERT等模型识别句中的命名实体,如人名、地名等。

ii 关系分类:判断两个实体间是否存在预定义的关系类型。常用CNN、BERT等方法。

iii 属性抽取:从文本中抽取实体的属性值,如时间、数量等。

工业界知识抽取常采用基于深度学习的方法,再结合规则进行校验补充。如阿里知识图谱从百科、电商等网页中抽取了数亿实体,定义了数百种关系、数千种属性类型。

抽取得到的原始知识还很粗糙,需要一系列优化过程,包括:

i 指代消解:将代词、同义词等映射到规范实体。

ii 实体统一:发现不同来源的重复实体,消除冗余。

iii 知识融合:发现不同模板抽取的重复关系,选取置信度高的关系。

iv 知识推理:利用规则学习算法,挖掘隐含关系。

此外,还需将知识图谱与本体进行映射,赋予知识更明确的语义。本体构建一般采用人工方法,由领域专家定义核心概念、关系。对于通用领域,也可复用WordNet、Cyc等现有本体资源。

传统知识图谱以结构化为主,但近年来出现了众多图谱预训练语言模型如ERNIE、CoLAKE等。它们采用类似Word2Vec的方式,通过知识图谱中的随机游走序列,学习节点和关系的语义嵌入表示。这种做法融合了知识图谱的结构信息和文本语料的语义信息,为知识表示开辟了新的方向。

知识图谱数据的采集与应用密不可分。如智能音箱领域,需要采集语音-文本-意图-动作-反馈等多环节数据,并形成知识闭环。这对数据治理提出了更高要求。需要打通数据采集、存储、计算、应用的全链路,实现数据的自动化、智能化管理。

4. 行为数据采集

行为数据指用户在使用产品过程中产生的数字足迹,包括浏览、点击、评论等用户事件。相比其他数据源,行为数据最能反映用户的真实意图和偏好,对个性化服务至关重要。以推荐系统为例,其核心是根据用户历史行为预测用户对新物品的兴趣。用户行为数据可分为以下几类:

1) 用户属性数据:人口统计属性如年龄、性别、地域等,以及兴趣偏好标签。一般由用户在注册、填写问卷时显式提供。

2) 用户交互数据:用户与物品的直接交互,如浏览、收藏、购买商品,观看、点赞视频等。交互数据直接反映了用户对物品的兴趣,是推荐系统的核心数据源。

3) 用户社交数据:用户在社交网络中的关系链数据,如好友、关注、提及等。基于同质性原理,近朱者赤,用户的社交网络能揭示其兴趣和影响力。

4) 用户反馈数据:用户对推荐物品的显式反馈,如评分、点赞、评论等。反馈数据相比交互数据更稀疏,但对提升推荐质量很重要。

5) 场景数据:如时间、地点、设备等用户当前的环境因素。场景因素会影响用户的即时需求,是上下文相关推荐的关键。

用户行为数据采集的主要途径包括:

1) 服务器日志:用户与应用服务器的每次交互,都会在服务端日志中留下记录。日志采集工具如Flume、Logstash等能实时收集海量日志,并存入HDFS等分布式存储。

2) 客户端埋点:在客户端预置采集代码,触发特定事件时上报数据。相比服务端日志,客户端埋点更灵活,数据粒度更细。典型的埋点SDK有GrowingIO、Sensors等。

3) 应用内Tracker:应用内置的行为跟踪器,如Android的Tracker、iOS的AppTrackingTransparency等。相比埋点,Tracker的接入更简单,但定制化程度较低。

4) 可视化埋点:通过类似Selenium的自动化工具,记录用户在应用页面的操作轨迹。相比代码埋点,可视化埋点的实施成本更低,非常适合中小企业。

值得注意的是,不同采集渠道的行为数据在格式和语义上往往不一致,需要通过数据集成进行统一。ETL工具如DataX、Kettle,以及大数据平台Hive、Spark SQL等是常用的数据集成方案。集成后的行为数据在进入推荐流程前,还需经过一系列数据预处理,如:

i 数据清洗:剔除非法数据,如机器刷单产生的异常点击。可基于统计规则,或异常检测算法。

ii 会话重构:将原子事件按照时序关联为会话,挖掘用户的主导目的。

iii 序列建模:对会话序列提取高阶统计特征,如购买高峰时段,品类偏好等。

如此经过采集、集成、处理的行为数据才能为算法建模所用。从原始数据到可用特征,往往要经过数十个环节的数据开发。阿里等大厂为此构建了灵活的大数据开发平台如Databricks,提供从数据接入、存储,到计算、应用的一站式解决方案。另一个值得关注的趋势是,利用在线学习、强化学习等技术,构建实时闭环的行为数据采集和应用。典型如广告系统,利用实时竞价获得用户反馈,动态调整出价策略。强化学习算法DQN、LinUCB等在此发挥了重要作用。阿里的智能调度平台Sigma,腾讯的广告投放引擎Vega都大量采用此类技术。

可以预见,随着用户互动方式的日益多样,对行为数据的采集分析能力,将成为企业数字化转型的核心竞争力。这不仅需要前沿的AI算法,更离不开端到端的数据智能架构。唯有打通全流程、全域数据,才能洞察用户需求,驱动业务增长。这是以用户为核心的数字化时代的必然要求。

二、大模型数据处理流程

了解了大模型对海量异构数据的渴求,让我们再来看看工业界是如何驾驭这些数据的。以下是一个典型的大规模机器学习数据开发流程:

1. 数据接入层

原始数据散落在业务库、日志、爬虫数据等各个系统,需要通过数据接入统一集成到大数据平台。数据接入的关键是如何平衡数据时效性和成本。对于实时性要求高的数据,常采用流式数据管道,通过Kafka、Pulsar等消息队列实时推送。LinkedIn的Brooklin、阿里的Canal、Facebook的Wormhole都是优秀的流数据集成框架。对于离线数据,则采用批量同步的方式,通过调度系统按天/小时增量拉取。如阿里的DataWorks、美团的Minos、360的Eleme等。进入大数据平台的原始数据一般存于Hadoop HDFS、云存储如S3等廉价存储介质。但这些数据往往杂乱无章,需要严格的数据治理。数据治理的核心是元数据管理,记录数据的业务口径、技术参数、血缘关系等。Atlas、阿里的Dataphin等是常见的元数据管理平台。

2. 数据处理层

原始数据"入湖"后还很粗糙,需经过系列加工处理,如数据清洗、数据集成、数据变换等,形成结构化、语义化的高价值数据集。

清洗过程通过一系列 detect-repair 操作,识别并纠正脏数据。常见数据质量问题包括:完整性(字段缺失)、唯一性(重复记录)、合法性(越界值)、一致性(逻辑矛盾)等。传统ETL采用SQL手工编写转换逻辑,对数据量大、Schema复杂的场景难以应对。基于 DAG 的 ETL 框架应运而生,如Airflow、阿里的DataWorks等。

它们将ETL流程抽象为有向无环图,每个节点完成特定转换,后一节点严格依赖前节点输出。DAG架构使ETL流程灵活可配置,极大提升了数据处理效率。Spark、Flink等分布式计算引擎在数据处理中扮演核心角色。它们基于内存计算,可实现比Hadoop MapReduce快数十倍的批流处理。

Spark的DataFrame、Flink的Table API进一步简化了分布式计算的编程复杂度,使数据开发像SQL一样简单。数据处理的一个重要目标是形成主题域的业务数据模型,如用户域、商品域等。阿里提出的数据中台概念,本质上就是一套统一、共享的业务数据模型,为上层应用提供标准化数据服务。

工业界数据处理的一个重要趋势是向云上迁移。云厂商如AWS、阿里云纷纷推出大数据平台产品,将存储、计算、调度打包提供。用户可按需按量付费,显著降低了总拥有成本。同时云服务的弹性伸缩能力,可轻松应对双十一等洪峰流量,这是传统私有集群难以企及的。

3. 特征工程

数据经过清洗、集成、ETL,离可用于机器学习尚有最后一步,即抽取有判别力的特征。特征工程往往决定了机器学习的效果上限。

特征抽取要因任务而异。如排序类任务关注物品之间的相对顺序,特征多基于统计量如CTR、转化率等。推荐类任务重在刻画用户兴趣,特征侧重于交互序列、共现频率等。搜索类任务需捕捉query-doc相关性,特征多围绕文本相似度、语义匹配展开。

常见的特征抽取方法有:

1)统计特征:如均值、方差、百分位等,刻画数据的集中趋势、离散程度等。

2)频次特征:如TF-IDF、人工定义的业务频次等,反映事件发生的频繁程度。

3)交叉特征:将多个特征组合形成的高阶特征,挖掘特征间的非线性关系。如年龄 X 性别 X 职业。

4)嵌入特征:将高维稀疏的 ID 类特征压缩为低维稠密向量,如word2vec、node2vec等。

5)图特征:挖掘社交网络中的节点重要性、社区结构等,如PageRank、社区发现等。

传统的特征抽取高度依赖专家经验,存在成本高、迭代慢等问题。自动特征工程应运而生,通过机器自动生成、筛选特征。其代表方法有:

1) 深度学习:利用CNN、RNN等自动学习层级特征表示。如PNN、DeepFM等。

2) 表示学习:通过随机游走在异构网络中学习节点嵌入。如Airbnb的Embedding一体化平台。

3) AutoML:自动化机器学习流程,包括超参调优、神经网络架构搜索(NAS)等。如阿里的PAI、腾讯的 Angel 等。

自动特征工程是AI驱动数据开发的重要方向,相比人工,其优势在于:覆盖率高,可自动挖掘高阶组合特征;迭代快,新数据的特征快速上线;适应性强,可端到端优化适应下游任务。当然,自动化方法并非灵丹妙药,关键特征的生成仍离不开对业务的理解和抽象。

抽取的原始特征还需经过特征选择,去除冗余和共线性特征。常用方法有平均精度、递归特征消除等。此外,对数值特征还要进行归一化,将不同尺度的特征映射到同一量纲。如Min-Max归一化、Z-score归一化等。对类别特征还要进行编码,如One-Hot 编码、Target 编码等,使其满足机器学习算法的输入需求。

特征工程是算法与业务结合的纽带,往往是数据开发最费时费力的环节。阿里的特征平台、美团的Cube就是为了应对特征工程而生。它们建立统一的特征仓库,为不同业务提供特征注册、存储、共享、监控等一站式服务。打通线上线下环境,实现特征的自动化生产。这大大提升了算法迭代效率,也促进了特征在业务间的复用。

4. 样本构建

万事俱备,只欠东风。模型训练的最后一环,是从特征中抽取样本(X,y)。X是特征向量,y是目标标签。样本构建要考虑以下几点:

1) 样本代表性:抽样要均匀覆盖目标人群,避免选择偏差。如分层抽样、配额抽样等。

2) 样本平衡性:各类样本的数量要均衡,避免稀有类被忽略。如过采样、欠采样等。

3) 样本时效性:在线学习场景要注意样本的新鲜度,及时淘汰过期样本。如Time-Decay采样等。

4) 样本数据干净,无各种异常点、离群值。不合理的样本会引入噪音干扰模型训练。

工业界样本构建一般基于数据平台的调度框架,如Airflow、Oozie等。它们以DAG工作流形式描述样本构建过程,自动化执行抽样、特征提取、数据合并等步骤。阿里的样本工厂、腾讯的Metis都是这一思路的优秀实践。样本构建是算法上线的最后一环,对效果影响重大。样本不当,再好的算法也难施展拳脚。谷歌用10%流量进行在线A/B实验,就是为了获得高质量的样本反馈。

样本的标签质量尤为重要,标注不一致、噪音过大都会严重影响模型效果。众包标注平台如Figure-Eight等,通过任务拆分、交叉验证等方式,保障标注质量。

总之,大模型背后是一整套严密的数据工程。从数据接入到样本构建,每一步都关系着最终效果。阿里的特征平台、腾讯的丰巢等,无不在打造端到端一体化的特征开发利用链路。它们屏蔽了数据处理的繁琐细节,让算法工程师聚焦于模型本身。这是AI驱动业务发展的大势所趋。

三、行业实践:GPT背后的数据体系

理论讲完,让我们再来看看这些方法在OpenAI GPT-3中的实践。GPT-3的训练数据高达4500亿token,约800G文本。这在当时是前所未有的规模。那么,这些数据是怎样获取、处理,最终喂给模型的呢?

1. 数据源:高质量网页语料

GPT-3使用了以下几个主要语料库:

1) Common Crawl(60%):一个开放的网页爬取项目,GPT-3使用了其2016-2019年间的快照数据。CC数据广泛但噪音大,需大量清洗。

2) WebText2(22%):从Reddit帖子外链的高质量网页构建。先从8亿条Reddit帖中抽取karma>3的帖子,再提取帖中的URL,获得4000万个高质量网页。相比CC,WebText噪音小,但覆盖面窄。

3) Books1 & Books2(8%):两个图书语料,前者多为版权过期的古籍,后者为网络图书。书籍语料连贯性强,但话题单一。

4) Wikipedia(3%):英文维基2020/03版全部文章。百科有较强的权威性和连贯性,但缺乏口语化表达。

此外还有5%的其他数据,如谷歌新闻等。可见,GPT-3的语料以网页为主,注重了数据质量,但话题和文体的全面性有欠缺。这导致其在一些特定领域表现不佳。

2. 数据清洗:以规模换质量

GPT-3没有对数据做太多复杂处理。原始HTML用Hadoop集群批量提取正文、分句,再过滤掉低质内容,如:太长或太短的文档(<128字或>1M字)、重复度高的文档(如模板广告页)、低可读性文档(如代码、表格等)、非英语文档

之后,所有文本被BiT模型编码为token,组成最终的训练语料。值得一提的是,为了避免不同来源文本的分布差异,GPT-3对所有文档的采样概率做了平滑,削弱了高质量但话题单一的语料的影响。

这样的数据清洗流程其实颇为粗放。OpenAI也承认质量是GPT-3语料的短板。但凭借超大规模,GPT-3最终还是学到了强大的语言模型。这或许印证了"以量变达质变"的哲学。

3. 模型训练:混合精度+Kernel优化

GPT-3的训练过程主要有以下特点:

1）预训练+微调:先在全量语料上预训练Language Model,再在下游任务数据上微调。这种迁移学习典型的two-stage方法。

2）混合精度训练:用FP16和FP32 Tensor混合表示模型参数。FP16可减少显存占用,加快训练,但部分layers如Softmax仍用FP32保证数值稳定性。

3）显存优化:只在GPU上保留当前mini-batch所需的参数和梯度,其他parameters存于CPU内存。使训练可在单卡GPU上进行。

4） Kernel优化:用NVIDIA的cuBLAS库优化矩阵乘等关键运算,提高GPU利用率。

5）梯度检查点:每隔一定step保存梯度,节省前向传播时的显存。该技巧常用于训练大batch尺寸。

OpenAI表示,3000亿参数的GPT-3模型完成训练仅用了10天,平均算力利用率高达50%。这得益于上述一系列性能优化。但仍有学者质疑,仅靠优化很难如此高效,期间是否有预训练参数的迁移复用? OpenAI对此未置可否。

4. 推理部署:API形式对外开放

与BERT等开源模型不同,GPT-3并未公开模型checkpoint。相反,OpenAI以API形式提供模型调用。开发者可以通过API接口,用少量样本在特定任务上 fine-tune GPT-3,并将训练的提示(prompt)保存在云端。

这种 API as Model 的部署方式有几点好处:

1) 模型IP易于保护。用户无法获取GPT-3底层参数,避免了被clone、滥用的风险。

2) 计算资源易于管理。所有任务调度、资源分配由云端统一控制,避免终端设备算力浪费。

3) 模型持续优化。用户上传的数据、反馈可用于持续训练模型,API升级也更方便。

当然,这也存在一些隐忧:

1) 推理延迟较高。所有请求都要通过远程API,难以应对实时性要求高的场景。

2) 隐私安全存疑。用户数据会上传至OpenAI服务器,隐私保护措施尚不明确。

3) 定价不够灵活。目前仅按API调用次数计费,对中大用户缺乏针对性优惠。

一些研究者还尝试了基于梯度Checkpoint、GPU集群的推理加速方案,但尚未在生产中得到验证。如何在云端高效、经济地 Serving 大模型,仍是一个开放的挑战。GPT-3背后是一整套数据智能架构。从数据采集、清洗到特征抽取、样本构建,再到训练优化、推理部署。每个环节都离不开大数据、分布式计算等前沿技术的加持。这是对工业界机器学习落地能力的一次集中检验。

来源（公众号）:DATA数据社区