2022-11-16 09:04 浏览量:402
最近看到一篇文章,在聊数据标签和数据指标。恰好最近在做的一个项目也有涉及到,就跟大家一起来聊聊这两者的区别和联系。
关于数据标签和数据指标的定义这里就不多提了。因为所有的事物,一旦要被下一个定义,要被概括地表达出来,就会变得晦涩难懂。这里引用傅一平博士的表述「指标是对各种客观事物的数值描述,标签是对各种客观事物的特征标识,前者回答“是多少”问题,一般具有统计性质,比如到达用户数,后者回答“是什么”问题,一般具有形容性质,比如高端用户。」
一、常见的指标和标签有哪些?
起指标,指标通常说的是一种客观事实存在。我们生活和工作中,其实指标无处不在。工作里面有 KPI 、ROI、GMV、MAU、DAU、LTV等等各种指标;生活里有幸福指数、健康指标 BMI 、通货膨胀的指标;上升到统计层面,会有GDP、CPI等指标。
而标签呢,是为了方便归类,大多是由人为划分定义的。一家公司、一件商品、一个人都可以被打上各种各样的标签。比如说光点科技,既是大数据公司,又是互联网公司,还是广东省高新企业。又比如 iPhone14 手机,它的标签可以是手机、商品、电子设备、通讯设备等等。
二、数据指标和数据标签有哪些?
数据中台项目中提到的数据指标,就需要严谨一点,通常是以可量化的数值形态呈现出来,一般会包含三个部分:口径/逻辑、维度、限定词。
数据中台项目中的指标是有具体含义的,而这个指标会依赖某个具体业务口径,通常是需要数据治理人员或者技术开发人员将其确定为一个技术加工逻辑,比如数据从哪个表取数,取什么数,最大值、最小值、还是平均值等。
维度就是我们看待某些数据的角度,常见的维度有时间、部门、产品、财务维度。
而限定词就更容易理解了,说的是一个特别具体的场景和要求,可以快速确定并缩小范围的词。
就拿我们在服务的一个路桥工程公司举例,它的业务口径一般为工程造价;他的统计维度可以用部门、项目、时间、地点、具体进度等维度。限定词就是具体的统计维度。举一个同时包含这三个内容的例子,假如我们要取一个在广州的,某个大桥的,第二期工程10 月份的人力费用支出数据。这个时候技术开发人员就要通过一系列流程来计算提取数据。
可以说数据指标一般都是数值型的,是应该能够量化的。而标签往往是被人为定义的,基本上都不是数值型的数据。通常是为了方便分类、查找、统计数据,方便后续的数据挖掘。
三、数据指标和标签一般是怎么分类的
标通常划分为原子指标、派生指标、衍生指标。
原子指标不叠加任何维度,仅是对业务事实的最基本描述,通常是一些整体指标,通过SQL直接统计出来的,比如客户数、项目数、成本支出数等等……
但是实际业务使用中,更关心某一特定维度的指标,比如累计的项目数、在建的项目数、暂时停工的项目数、签约中的项目数……
因此我们有了派生指标。派生指标就是原子指标叠加一个或多个维度。广州在建的项目数是在建的项目数叠加地域维度;目前湛江停工的项目数,就是在建项目数加上地域维度和时间维度。
很多时候仅仅叠加维度还不够,有时候我们还需要不同指标之间互相计算,最常见的就是求平均和占比,比如平均的项目标的、在建的项目和总项目的占比、回款额和合同额的占比……这就是衍生指标,即通过原子指标或派生指标互相加工而来。
而标签由于其人为划分的特性,并没有一个统一的标准,常见的有事实标签、规则/统计标签、模型标签等等。每个项目、每个公司对于数据标签的定义和分类也都不同,这里就不多展开了。
以上是,我对于“数据标签和数据指标”的一些思考,欢迎一起交流探讨。
来源:许可数字说