目录
0. 相关文章链接
1. 标识符引入
在构建精准用户画像时,面临着这样一个问题: 日志采集不能成功地收集用户的所有ID,且每条业务线有各自定义的UID用来标识用户,从而造成了用户ID的零碎化。 因此,为了做用户标签的整合,用户ID之间的强打通(亦称为 ID-Mapping )成了迫切的需求。
日志数据针对某个用户单次特定的浏览行为,一个用户一天可能存在多条数据,然而标签是针对人的,就会存在的问题:
第一点:在数据集中抽出人的概念、让一个人能对应一条数据
第二点:在日志信息中找不到可用的用户id,只能退而求其次,找设备的信息,用设备的信息标识用户
假设有一位用户张三,在第一个手机上使用百度地图, 在ipad上观看百度爱奇艺视频,在第二个手机上使用手机百度app, 在pc电脑上使用百度搜索,如何将同一个用户在这些不同端的用户信息聚合起来呢?
2. ID-Mapping 标识符
ID-Mapping 是大数据分析中非常基本但又关键的环节,ID-Mapping通俗的说就是把几份不同来源的数据,通过各种技术手段识别为同一个对象或主题,例如同一台设备(直接),同一个用户(间接),同一家企业(间接)等等,可以形象地理解为用户画像的“拼图”过程。
一个用户的行为信息、属性数据是分散在很多不同的数据来源的,因此从单个数据来看,都相当于“盲人摸象”,看到的只是这个用户一个片面的画像,而ID-Mapping能把碎片化的数据全部串联起来,消除数据孤岛,提供一个用户的完整信息视图,同时让某一个领域的数据在另一个领域绽放出巨大的价值。
ID-Mapping有非常多的用处,比如 跨屏跟踪 和 跨设备跟踪 ,将一个用户的手机、PC、平板等设备的上的行为信息串联到一起。
- IMEI:国际移动设备识别码(International Mobile Equipment Identity,IMEI),即通常所说的手机序列号、手机“串号”,用于在移动电话网络中识别每一部独立的手机等移动通信设备,相当于移动电话的身份证。IMEI是写在主板上的,重装APP不会改变IMEI。Android 6.0以上系统需要用户授予read_phone_state权限,如果用户拒绝就无法获得;
- IDFA:于iOS 6 时面世,可以监控广告效果,同时保证用户设备不被APP追踪的折中方案。可能发生变化,如系统重置、在设置里还原广告标识符。用户可以在设置里打开“限制广告跟踪”;
- MAC地址:硬件标识符,包括WiFi mac地址和蓝牙mac地址。iOS 7 之后被禁止;OpenUDID:在iOS 5发布时,UDID被弃用了,这引起了广开发者需要寻找一个可以替代
- UDID,并且不受苹果控制的方案。由此OpenUDID成为了当时使用最广泛的开源UDID替代方案。OpenUDID在工程中实现起来非常简单,并且还支持一系列的广告提供商;
- Android ID:在设备首次启动时,系统会随机生成一个64位的数字,并把这个数字以16进制字符串的形式保存下来,这个16进制的字符串就是ANDROID_ID,当设备被wipe后该值会被重置;
3. 同一用户识别
依据标识符,找出属于同一用户的标识,示意图如下所示:
从图论的角度出发, ID强打通更像是将小连通图合并成一个大连通图 ;比如,在日志中出现如下三条记录,分别表示三个ID集合(小连通图):
华为手机 10001 A B C
IPAD 10002 C D
PC电脑 10003 D E通过将三个小连通图合并,便可得到一个大连通图——完整的ID集合列表 A B C D E
分析思路:日志数据构建大的稀疏图,然后采用自join的方式做打通。
最后,推荐2篇关于ID-Mapping的文章: