全部类型 AI+大数据数据中台 API平台数据交换数据集成数据质量数据标准数据安全行业好文数据政策

【数据治理】第2话 - 标签治理体系

2023-02-13 08:30 浏览量：972

前言

✦

简单回顾一下，上一话主要聊数据治理体系【数据治理】第1话 - 建设思考，接下来第2话，主要讲讲数据治理应用中的用户画像“标签治理”。

在当前的业务中，用户画像已经成为了重中之重，从模拟用户调研人群、分析挖掘用户使用的行为、预测/推荐用户兴趣等场景中，覆盖的用户场景非常多，那今天的主题就是面临海量的标签和数据，我们如何进行治理？

背景&目标

✦

首先，已经覆全业务线进行画像标签的建设，生产出来的标签能力如何评估？

其次，在精细化运营的场景中，如何保证标签持续运营优化，助力业务运营？

最后，海量的数据标签上线后的使用计算和存储资源，业务真正使用诉求以及收益是否能覆盖数据成本，如何更加合理的去规划？

价值&收益

✦

标签质量：根据标签的时效性、标签覆盖度、标签准确性等维度判断当前标签的多维度的质量能力评估。

标签使用：深度调研一些低频的标签定位数据质量问题还是没有实际使用场景，如果是数据质量问题，优化后监控是否有使用频率的提升。

计算资源：根据低频率标签和无使用场景标签进行处理下线治理，优化整体标签架构和计算的资源，从计算效率和计算成本进行收益评估。

数据存储：一部分统计下线的标签历史的数据存储，另外一部分是正常的标签进行数据有效期的管理，节约数据的存储成本。

模型评估

✦

模型概览

从业务的自身实际情况角度去考虑，首先有哪些指标可以客观评估，并且大家都认同理解保持一致，另外就是这个指标梳理出来后，能够实际有治理标签的指导意义。

维度定义

覆盖率：主要是评估实际用户被打标的情况，即被打标的用户数在总用户数的占比。

简单举个栗子，比如【是否购买】的标签，当前全量用户有100万，其中有50万打上了“是”标签，其中有30万用户打上了“否”，那么剩下的20万没有打上任何标签，也就是说当前是否购买的标签覆盖率是80%。

覆盖率有什么影响呢？如果覆盖率太低的话，那么在使用标签进行人群包圈选的时候，用户体量太小，可用性比较低。在统计平台用户特征或者在做数据模型构建，和真实情况会有较大的偏差。

哪些场景适用覆盖率？一般通用性标签比较适合全量用户进行计算，针对一些特殊场景或者跨业务标签的时候，需要自行设定分母的定义范围，这样才更符合应用场景。

准确性：主要评估用户被打标签的实际情况是否准确，即准确的人群在总人群量的占比。

比如我们常用的【兴趣偏好】标签，通过用户对该品类点击次数和下单次数能够直接反馈出用户对该品类的喜爱程度。实际场景应用的价值，比如说用户偏好数学的学科，那么针对该用户投放数学品类的优惠券，去吸引用户使用优惠券购买数学商品，匹配该类型的下单需求，提升优惠券的使用率。这时准确性就起到至关重要的作用，如果准确性比较低的话，那么直接影响到用户的购买行为。

时效性：主要评估标签数据的提供的速度和时间的保证。

我们常用的一些基础或者核心标签是需要保证数据的时效性，比如push场景中【活跃】、【地域】、【性别】都会影响到push策略的收益，那么早上10点要做push动作，数据能否就绪进行使用，就是变得至关重要的。

使用度：主要评估标签在使用、分析、调度场景的情况。

人群圈选：直接反应该标签的使用现状，有多少人用该标签进行的圈选人群，使用的次数越多，代表着该标签符合场景、标签数据比较可信。

人群分析：指标签在人群分析、人群对比等分析场景中使用的次数。

系统调用：针对其他团队通过API等形式被使用的次数。

关注度：主要评估该标签被收藏、查看、搜索等场景的情况。

实用度：主要评估标签在业务场景实用情况。

在业务使用的过程中，标签势必要随着业务的发展而进行迭代，因此要记录标签的迭代次数、应用的质量（用户通过平台对标签打分）进行综合考量。

数据脱敏：主要评估标签的数据中是否包含敏感数据。

最近行业里因为“安全”的问题，损失惨重，俗话说“安全无小事，防患于未然”，虽说数据在公司内部进行使用，但是关乎于用户隐私或者公司经营数据还是要谨慎再谨慎，比如手机号、身份证号等敏感数据一定要进行加密。

模型计算

关于标签模型评估，一般思路就是函数+规则最终去评定。大致分为两种情况，第一种评定的维度像关注度、实用度这种，需要先通过Sigmoid函数等函数转化成评分，然后再在进行人工规则进行加权，收藏这种主动行为更有倾向，那么比重就高一些。第二种评定的维度像安全这种，如果敏感数据未脱敏，并且超过5%，直接给0分。

最终标签评分=15%*覆盖率 + 15%*准确性 + 15%*时效性 + 15%*使用度 + 15%*关注度 + 15%*实用度 + 10%*数据脱敏（所有维度权重加起来等于100%，具体实际权重可以根据目标和关注点进行调整）

模型应用

✦

对内

降本：可以拉取最近3个月内使用度<10的的标签进行治理，对于下线的标签可以评估数据存储的成本，以及消耗的计算资源，评估收益。

提效：提高标签的覆盖率、准确性，那么针对一些业务场景，评估是否有收益的提升。

安全：针对标签的数据风险项，进一步进项加强防控。

监控：根据多维度指标可以进行整个标签综合的评估，制作一张数据看板，对于每个维度可以设定阈值进行预警，进行治理。

对外

对于业务团队的使用者，要把核心的标签以及能力进行产品能力的外化，用户点击标签可以看到历史的就绪时间，标签的覆盖度。

这里需要有个考量，有的标签其实是一把双刃剑，比如使用度标签，那么在两个标签的定义和场景差不多的时候，会不会用户直接选择一个使用度高的，但是这个标签就真的是用户想要的么，那平台如何通过信息展示和产品交互更好的引导用户，是需要投入调研和考思考的。

总结

✦

其实无论是治理标签也好，治理数仓也罢，个人觉得最重要的是要能合理的评估出来收益，尤其是在现在的大环境下，否则治理的项目是很难进行推进的。

此外，要考虑标签的上下游使用的用户和面向的应用场景，像覆盖率和准确率的指标提升，客观来讲一定是能够实现业务的收益。

来源：一个数据人的自留地

【数据治理】 第2话 - 标签治理体系

【数据治理】第2话 - 标签治理体系