数据管理平台
软件需求说明书
知识库
制度规范
数据资源
数据体系
接入资源
数据资产
数据标准
数据质量
标签运营
资产盘点
数据服务
数据安全
权限管理
统一安全认证
概要设计
开发环境
登录页
系统字典
系统首页
开发中心
知识中心
制度与规范1.0
数据中心
数仓资源1.0
接入资源1.0
资产中心
数据标准1.0
服务中心
应用中心
外部数据导入
安全中心
富深协通在线文档协作平台
-
+
首页
标签运营
标签是面向业务的数据资产组织方式,因此标签在数据系统中处于核心位置。可以说,对标签的来源加工、体系管理、服务应用串联起了数据系统的功能架构与模块连接。 原始数据加工成标签,即可认为是简单意义上的数据资产化过程。数据不再是业务、信息系统的记录或存储,而是转化成带有商业价值的标签,标签是具有业务含义或对业务有指导意义的数据定义,可以说,完成了标签类目体系的组织和标签设计开发,才算是真正建立了数据资产的本体。数据资产价值主要通过资产服务化生成相应的数据服务,帮助业务增值或企业降本增效来证明。 ## 标签化 将数据进行标签化的思路就像微积分。微积分是两个概念的组合,先微分,再积分。微分是把一个大的东西切分成足够微小的部分;积分是把切分后的微小部分组织合成。标签的设计过程就是把各种对象充分“微分”的过程,解析和拆分得足够精细;而标签的使用过程就是将场景中涉及的对象标签拼装在一起使用,是一个“积分”的过程。 通过微积分的比喻,我们可以更好地理解“传统数据处理过程”和“标签化数据处理过程”的显著差异。 传统的数据处理往往是业务到数据再回到业务的快速贯通。 将业务端新鲜产生的源数据传到数据工厂中进行清洗处理,再快速将生产好的数据直接透传到业务端进行使用分析(见图1)。整条链路就像生产流水线一样快速、简洁、干脆。但是在同一份数据的跨业务领域使用或跨时间先后使用的场景中,经常存在复用困难的问题。  <center>图一 传统数据处理过程</center> 标签化的数据处理则意味着数据需要经过标准化组织后规模复用。 源数据经过清洗、加工、处理后,并不能直接搭载飞机直达业务现场,而是全部规规矩矩地到数据资产仓库的格子间验明正身、对号入座(见图2)。业务端要使用数据,必须拿着提货单到资产仓库一一挑选,检验后的标签资产会像搭载高铁般准时到达业务现场。这种模式很明显,由于增加了中间数据资产的管理环节,整体建设花费的时间较长,即“砍柴”前需要等待较长的“磨刀工”。  <center>图二 标签化数据处理过程</center> 前一种适用于小型机构对所需的数据服务产出时效有严格限制,只关注当前某一个局部的应用场景。实际上当前在很多大型机构中,快速完成数据开发后直接插管子、将数据灌送至业务系统的情况很普遍。 后一种实际上已经是一种中台模式了:将生产好的数据全部入库编号,并检查标签项是否完整、规范、准确。业务人员无论在何时选用资产都可以根据充分公开的标签信息自由下单,标签之间可以自由组合。这种将经常用到的信息、技术、功能进行标准化封装以供业务端不同场景复用、拼装的做法就是中台模式。中台模式适用于业务场景多样化的大型集团企业:通过一次建设、反复享用的方式可以节省成本,形成规模效益,同时还可以为中心沉淀核心的数据资产。 建立根目录、标签类目、标签、标签值。 1. 根目录指向标签所属的对象 根目录往往是一种较为模糊、宽泛、简单的名词或动名词,例如用户、购房者、酒店、浏览(记录)、交易(记录)、报修(记录)。按照数据思维,世上的一切事物都可以归为人、物、关系三类对象,因此一个用来指向某个对象的词(名词指向人、物,动名词指向关系)都不应该是标签,往往是标签根目录。在数据物理层面往往映射为某张大宽表中的主键,这张大宽表中的信息都是对该主键对象的详细刻画和数据记录:大宽表的列即映射为标签,大宽表的行记录则对应于具体的对象在各标签属性上的具体属性值记录。 2. 类目是对标签的分类 例如消费者身上的标签可以分类为基本信息、地理位置、社交关系等,这些分类名也是类目名。类目往往由名词构成。一个类目及其所归类的标签在数据物理层面可以和某张具体表对应,例如“消费者”对象的【基本信息】类目下,有“性别”“年龄”“籍贯”等多个标签,一般对应于消费者数据库中的一张消费者基本信息表,该表中会有“性别”“年龄”“籍贯”等多个字段。多张主键相同但信息类型不同的数据表关联在一起就可以形成该主键对象下的大宽表。例如将消费者基本信息表、消费者地理位置表、消费者社交关系表按照消费者ID关联在一起,就可以形成一张消费者多维度信息宽表。 3. 标签是对象的属性,颗粒度到字段级 “购房者姓名”“购房者电话”“购房者居住地址”“购房时间”等字段粒度的属性就是“购房者”对象的标签。标签往往由前后两个名词构成,前一个名词作为对象定语修饰后一个名词。标签一般对应于某数据库中某张数据表中的某字段。因此,“最近1天报修工单量”“最近3天报修工单量”“最近7天报修工单量”这些仅仅时间、地域、渠道中某一个维度不同,统计方式、统计对象都相同的标签,一般要算成3个标签,因为它们对应到数据表中的3个字段。 值得特别提出的一点是,有一些即席计算类的标签,例如“最近N天报修工单量”,标签名中的一部分(这里是“N”)可以在数据应用场景中任意设定,数据后端采用即席计算引擎导入报修工单量明细表,即可快速完成不同条件下的内存运算。那么此时,“最近N天报修工单量”就是一个标签,N是变量。这类标签属于即席类标签,就像实时类标签一样,它们是无法提前运算好,存储在某一张离线计算结果表中的。 4. 标签值是对象属性的具体取值 例如【张三】【李四】是“购房者姓名”标签的标签值,【男】【女】是“性别”标签的标签值。标签值往往是形容词、名词或数字,一般对应于数据库中某张数据表中的某字段取值。标签值的取值类型可以是数值型、文本型、日期型、KV型,但主要为数值型。数值型中又分可枚举的离散值和不可枚举的连续值。 标签值和标签都可以是名词,有时确实容易造成困惑,可以用一个简单的办法来区分:想想这个信息项是不是确定了。“女”“白领”就是确定了的信息,明确了这个对象是个女人不是男人,是个白领不是其他职业,那么这些信息项就是标签值。“性别”“职业”都没有确定具体的取值信息,可以有各种可能的取值,比如这个对象的性别可能是男可能是女,职业可能是白领可能是医生,那么这些信息项至少不是标签值;如果信息项细化到字段粒度,就很有可能是标签。 ## 标签运营 标签并不是机械产物,它是有生命力的数据能量,因此我们不提倡对标签进行管理,而提倡对标签进行以价值驱动的全生命周期运营。 标签运营的全生命周期包括以下6个核心环节,如图所示。  ### 1. 标签设计 数据资产设计师根据业务调研、数据调研等前期工作开展标签设计工作,产出标签类目体系架构图和标签设计文档,包括标签对象、类目体系、标签名、标签加工类型、标签逻辑、值字典、取值类型、示例、更新周期等元标签信息。 ### 2. 标签开发 标签设计完成后,按照加工类型对标签分类,然后提交给数据开发工程师和算法工程师,由他们进行各类标签的开发工作。原始类和统计类标签交由数据开发工程师完成,算法类标签交由算法工程师完成。在标签开发完成后,由数据开发工程师补录完整标签的物理存储信息,如表名、字段名、负责人、完成时间等,完成标签向数据层的映射。此外,在实际开发过程中,如果需要对标签的元标签信息进行更改,也可以在标签开发完成后统一修改或补充。 ### 3. 标签上架 标签开发完成并补充完整元标签信息后,需要将标签在标签管理系统中上架。标签上架后,才能通过标签门户开放、展示给各端业务人员查看、咨询、使用。在此过程中,系统会根据标签的安全等级、部门角色等信息来确定不同账号的数据查看、申请使用权限。权限内容包括可见标签集范围、标签详情信息范围、可申请标签集范围等。 ### 4. 标签使用 标签只有被业务使用才能发挥价值。标签的使用有数据同步、数据服务、数据应用等方式。数据同步是指将加工好的标签数据直接同步到业务系统的数据库中,简单粗暴,一般只有核心业务才会这样使用。在这种方式下,标签使用问题与效果难以跟踪,因此并不推荐。数据应用是指把标签功能封装成产品交互形态供外部使用,既能跟踪标签调用情况,又能评估标签使用效果。不过这种方式与业务方绑定较深,由于业务人员使用习惯各不相同,业务定制需求较多,通用产品难以满足众多业务前端的个性化需求,扩展性有限。数据服务是指将标签使用方式封装成API形式对接到业务系统,业务人员既可以灵活使用标签,又不需要直接复制标签数据,且调用情况容易跟踪和监控。综上,标签使用的理想方式是数据服务,它最能体现和发挥标签的广泛价值。在使用标签的过程中需要监控其调用情况,来审计其稳定性、安全性和规范性。 ### 5. 标签治理 从治理层面来说,统一的标签治理主要包括以下内容。 • 血缘信息:标签生产的路径即血缘,是根据历史事实记录每项标签的来源、处理过程、应用对接情况等。 • 元标签规范:每个标签都需要登记有业务类和技术类元标签信息,元标签管理需要形成统一的规范体系,对标签进行统一的信息登记和检查。 • 质量管理:标签质量管理要贯穿标签从设计、使用到归档等的全过程,其核心是制定一套标签质量管理规则,遵循标签质量标准,并配备可视化的标签质量监控平台、标签交叉验证工具等技术支撑。 • 安全管理:“三横三纵”的标签安全保障体系。“三纵”指安全理念及整体策略:首先,标签的使用必须 符合国家大数据相关政策法规;其次,必须保障所有客户所有数据资产安全;最后,在具体使用过程中,要评定标签敏感性等级,制定相应的安全管理策略和安全实现方案。“三横”指的是采取的核心方法:其一是三重加密机制,其二是可用不可见标签安全体系,其三是由所有ID生成的一个核心ID(已脱敏)。 ### 6. 标签营销 标签开发完成后,对外需要将标签价值进行梳理、宣传和推广,让业务部门人员尽快了解到各类标签信息。营销人员对外需要组织各类曝光活动以推广热门、高价值标签,还可以按各类主题、场景、领域组织标签集合来向业务人员精准推送,并提供端到端解决方案;对内需要及时对错误标签信息进行更正、对低质量的标签进行持续不断的治理优化、对高热度、高质量的标签进行排序优化、对有需求、有潜力的标签进行需求升级和研发储备。
汤泽波
2023年4月20日 15:36
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码