超AI说 | 支持CDP多样的应用场景,需要哪些底层技术保障?
论坛时间:2021/11/24

Introduction

CDP和DMP有哪些区别?为支持CDP的各种应用,技术上有哪些考量?

Reivew

Details

我们首先来理解一下CDP和DMP有哪些区别。CDP和DMP主要区别在于两个方面:

  1. 应用场景的区别

传统DMP只支持网络广告渠道的精准化营销,CDP可以在其他的渠道,比如说短信、微信公众号、APP、小程序推送进行一些精准化营销。

传统的DMP只能做人群画像,CDP可以集成BI系统,做更多的定制化报表,以及个体消费者360的明细数据分析。

传统DMP只能做简单的人群放大,CDP可以支持消费者线索打分、消费者置换购模型、消费者商品推荐等应用场景。由于它触点数据越来越多,所以CDP的应用场景相比于DMP范围更大一点,或者说更偏向于用户精准化营销这方面。

  1. 数据范围的区别

CDP为了支持这些额外的应用,接收的数据比DMP会更多。

DMP接收的数据其实还是比较单一和标准的,主要就是网络广告的监测和投放数据;CDP在这些网络广告数据的基础上,额外支持电商的购买数据、小程序的用户行为数据、微信公众号的粉丝数据、官网和APP的行为日志数据等。有了这些数据之后,CDP才能支持刚刚所说的这么多额外的应用场景。

由于CDP接收数据的渠道又多又杂,所以技术上对于CDP的数据打通和整合能力、数据处理能力、数据质量的监控能力其实要求也越来越高。具体业务上的技术考量无非就是三点。

第一,怎么更有效或者更精准地进行数据处理和转置。具体来说,怎么将多源异构数据变成标准化的数据模型,支持后续的各种应用,以及怎么样在大数据的情况下支持实时和离线的数据处理。

第二,在拿到渠道的数据之后,怎么进行具体的数据整合,或者怎么进行多触点的用户ID打通。

第三,怎么保证多渠道数据进入CDP之后,它的数据质量是持续的、可控的、精准的,并且发现问题之后能及时进行监控和报警。

关于数据处理这一块,行业上主要的难点在于两点。

第一点,怎么保证数据处理的横向扩展性。具体来说在数据量不断增长的情况下,保证业务能够持续地稳定和增长。

第二点,如何保证数据处理可以支持实时的应用场景,比如说消费者实时的触达。

关于数据打通或者ID打通这一点,因为CDP接入了更多源异构的消费者数据,其实会有很明显的多渠道用户触达和用户打通的需求。一个消费者可能会在微信上留下他的OpenID,这个消费者在电商渠道可能会留下他的一个手机号,这时候我们一定要将微信渠道的OpenID和他电商上的手机号打通成在一起,或者说认为是同一个人,才能做跨渠道的用户分析,或者跨渠道的用户触达。

在行业上,其实跨渠道的用户分析和跨渠道的用户触达各个CDP都有,但其实还是有一定难点的。具体难点的话,按照我们之前的经验主要存在于两个地方。

第一是如何保证用户的ID打通是比较精准的,或者说是比较干净的。

由于我们打通关系非常多,有时候会发现一个数会存在过度绑定或者过度打通的问题。典型的场景是,一个用户在网站上的留资,会留下他的CookieID和手机号,但可能由于一些特殊的原因,我们常常会发现,多个手机号绑定在一个CookieID上,这时候其实对于整体的ID打通造成了非常大的脏数据或者说是过度绑定的问题。

第二是我们希望ID绑定具有扩展性。企业主的渠道其实是不断扩展的,比如今年企业主对于消费的渠道,可能就只有一个微信公众号,明年可能会增加微信小程序、电商和APP这三个渠道。那我们的ID打通渠道或者ID打通的规则,其实也应当可以支持灵活扩展。

明略科技在ID打通方面有相当丰富的实践经验。对于ID打通的干净或者准确程度,明略科技参考了国外的各种竞品,并基于自己的实际经验,使用了一种叫做高优先级ID唯一的ID打通方法论。具体是指,一个Cookie对应多个手机号的时候,只会取某一个手机号,或者将这些绑定记录认定为异常的绑定记录进行去除。这样就会很大程度上保持ID绑定关系的准确性和收敛程度。

我们使用Flink Gelly的图计算来支持ID绑定的计算,因为它是一个抽象的、灵活的计算方式,所以随着企业主的触点不断增长,比如说从一个两个触点增加到五个触点,原有的ID绑定功能和ID绑定的计算方式都可以支持这种规则上的扩展。这样,无论是从ID绑定的数据准确性方面,还是从ID绑定的规则和数据量扩展性方面,明略科技标准CDP的ID绑定功能都可以满足企业用户的需求。

从数据接入和上游的对数、系统核对的监控来说,一般来说CDP需要做到接入的数据跟上游的数据,无论是从文件层面上还是从数据量层面上进行核对。

CDP作为一个应用系统,除了传统应用系统对于业务任务的监控和基础应用的监控之外, 由于处理了多源渠道的大量消费者数据,所以说对于消费者数据质量的监控其实也是有非常高的要求。行业内对于数据质量监控的需求其实是端到端的,具体来说就是覆盖数据接入、处理、输出这个全流程。

一般来说数据接入上的监控分为两种:第一种就是基于CDP文件层面上的监控,也就是核对CDP收到的数据文件和上游系统发送的数据文件的MD5;第二种就是数据内容或者数据记录上的监控,基本上就是基于CDP文件的接收记录和上游的发送记录进行核对,看是不是一致,来进行数据记录上的条数的监控。

只有做到数据文件级别的监控与数据记录数量上的监控,我们才能知道CDP数据接入和上游系统是保持完整一致的。

关于数据处理过程当中的数据质量监控,一般来说,都是基于自定义的业务规则来进行。一般来说常见的数据探查规则就看某一份数据的数据字段是否标准,某一些字段是否存在空值的情况,某一些字段是否会有唯一值的情况,某一些数据是否会有数据倾斜的情况。

常见的用来支持这些或者提高这些数据探查效率的解决方案,可以用一些外部的标准化数据处理平台的工具,比如Informatica或者Kylo;有一些CDP自己也支持一些原生的数据探查工具。

在明略科技标准CDP当中,有一个数据质量探查的模块,它支持一些预设的数据质量探查规则和功能,包含空值探查、唯一值探查、数据标准化的探查,也支持用户在CDP上自定义一些业务的数据质量探查的规则。用户可以在这个功能模块上自己嵌入自定义的SQL的数据探查规则,来看某一份数据的探查结果是否符合规则,或者不符合规则的数量是否超过一定阈值;超过阈值的话,我们会支持各种情况的报警,这样就能保证数据处理过程当中,问题能够及时进行发现,并且及时处理。

Tel

Business Hotline

4006-538-899

Reception

010-64303888
Online Consult

Scan QR code
Consult Now

Back to Top