用户画像之标签聚类

原创 2017-09-09 赵宏田 Python爱好者社区

赵宏田，Python社区专栏作者

博客：https://zhuanlan.zhihu.com/pythoncoder

大家好~

这次想继续和大家聊聊用户画像。用户画像是个体系性比较强的内容模块，分一两次博客也写不完，我争取分多次博客把各个模块都搭建起来。上次把用户画像方面的内容开了一个头，讲了关于标签权重的计算方法，这次就聊聊标签聚类的方法。其实聚类不限于方法和形式，只要能将同类物品 / 内容进行准确聚类的，都是好的方法。好啦，开篇结束啦，下面让我们进入正题吧：

一、应用背景

继上一篇中提到的用户标签表，存储了用户在平台上每次操作（来自日志数据）、购买（来自业务数据）等行为带来的标签。随着时间的累计，各用户在平台上积累的标签数以亿计，如何对这些不同类型的标签进行归类，找到每个标签所属的某一类别，是本次讲述的重点。

二、标签聚类

Step1：从用户标签表抽取数据

用户标签表结构长这个样子（字丑 ╥﹏╥）

首先从用户标签表抽取两种类型的标签（我们暂命名为A类标签和B类标签），

创建临时表1，抽取A类标签：

        create table gdm.tag_relation_cluster_function_01
		as
		select user_id,
			   org_id,
			   org_name,
			   cnt,
			   date_id,
			   tag_type_id,
			   act_type_id
		  from wedw.peasona_user_tag_relation  --用户标签表
		 where date_id >='2017-01-01'
		   and date_id <='2017-08-24'
		   and tag_type_id in (1)    -- A 类标签
	  group by user_id,
			   org_id,
			   org_name,
			   cnt,
			   date_id,
			   tag_type_id,
			   act_type_id

创建临时表2，抽取B类标签：

        create table gdm.tag_relation_cluster_function_02
		as
		select user_id,
			   org_id,
			   org_name,
			   cnt,
			   date_id,
			   tag_type_id,
			   act_type_id
		  from wedw.peasona_user_tag_relation  --用户标签表
		 where date_id >='2017-01-01'
		   and date_id <='2017-08-24'
		   and tag_type_id in (7)    -- B 类标签
	  group by user_id,
			   org_id,
			   org_name,
			   cnt,
			   date_id,
			   tag_type_id,
			   act_type_id

Step2：计算每类标签对应的用户人数

这里用到了共现矩阵的思想，即两个标签上同时拥有的用户人数。即用户甲身上既有A类标签，又有B类标签则记为数字1，两两标签之间拥有的用户数越多，说明用户在平台上的行为在带来A类标签的同时也带来了B类标签，即两个标签之间的相关性越大。在HQL中的逻辑如图：

创建临时表3，计算A类标签下每个标签对应的用户人数：

		create table gdm.tag_relation_cluster_function_03
		as
		select org_id,
			   org_name,
			   count(distinct user_id) user_num,
			   row_number() over (order by count(distinct user_id) desc) rank
		  from gdm.tag_relation_cluster_function_01
	  group by org_id,
			   org_name

创建临时表4，计算B类标签下每个标签对应的用户人数：

		create table gdm.tag_relation_cluster_function_04
		as
		select org_id,
			   org_name,
			   count(distinct user_id) user_num,
			   row_number() over (order by count(distinct user_id) desc) rank
		  from gdm.tag_relation_cluster_function_02
	  group by org_id,
			   org_name

创建临时表5，计算A、B两类标签共同关注人数的共现矩阵：

		 create table gdm.tag_relation_cluster_function_05
		 as
		 select t.org_id_1,
			    t.org_name_1,
				t.tag_type_id_1,
				t.org_id_2,
				t.org_name_2,
				t.tag_type_id_2,
				t.num
		   from (
		        select t1.org_id as org_id_1,
				       t1.org_name as org_name_1,
					   t1.tag_type_id as tag_type_id_1,
					   t2.org_id as org_id_2,
				       t2.org_name as org_name_2,
					   t2.tag_type_id as tag_type_id_2,
					   count(distinct t2.user_id) as num
				  from gdm.tag_relation_cluster_function_01 t1	
			cross join gdm.tag_relation_cluster_function_02 t2	
			        --on t1.user_id = t2.user_id		
where t1.org_id <> t2.org_id		
			  group by t1.org_id,
				       t1.org_name,
					   t1.tag_type_id,
					   t2.org_id,
					   t2.org_name,
					   t2.tag_type_id
			      ) t

Step3：用余弦相似度函数计算两两标签之间的相关性

余弦相似度函数怎么用，这里简单举个例子：标签a打在了10000个用户身上，标签b打在了20000个用户身上，有5000个用户的身上同时用户a标签和b标签，则a、b标签之间的相似度即为：5000 / sqrt（10000*20000）.在HQL语言中执行如下：

         create table gdm.tag_relation_cluster_function_06
		 as
		 select t1.org_id_1 as org_id_1,		--标签a id
				t1.org_name_1 as org_name_1,		--标签a名称
				t1.tag_type_id_1 as tag_type_id_1,		--标签a type_id
				t2.user_num_1 as user_num_1,		--标签a 人数
				t1.org_id_2 as org_id_2,
				t1.org_name_2 as org_name_2,
				t1.tag_type_id_2 as tag_type_id_2,
				t3.user_num_2 as user_num_2,
				t1.num as num,			-- 同时有两个标签的用户数
				(t1.num/sqrt(t2.user_num_1 * t3.user_num_2)) as power,
				row_number() over(order by (t1.num/sqrt(t2.user_num_1 * t3.user_num_2)) desc) rank
		   from gdm.tag_relation_cluster_function_05 t1
	  left join (select org_id,
				       user_num as user_num_1
				  from gdm.tag_relation_cluster_function_03   --标签a  对应的用户人数
				  ) t2
			 on t1.org_id_1 = t2.org_id
	  left join (select org_id,
				       user_num as user_num_2
				  from gdm.tag_relation_cluster_function_04 	 --标签b 对应的用户人数
				  ) t3
			 on t1.org_id_2 = t3.org_id
	   group by t1.org_id_1,
				 t1.org_name_1,
				 t1.tag_type_id_1,
				 t2.user_num_1,
				 t1.org_id_2,
				 t1.org_name_2,
				 t1.tag_type_id_2,
				 t3.user_num_2,
				 t1.num,
		         (t1.num/sqrt(t2.user_num_1 * t3.user_num_2))

Step4：筛选出与每个A类标签相关性最大的B类标签，即将该A类标签归类到该B类标签下：

HQL中通过row_number()方法将权重最大的B类标签置顶，然后筛选出，语句执行如下：

  create table gdm.tag_relation_cluster_function_07
  as
  select org_id_1,
	     org_name_1,
		 tag_type_id_1,
		 org_id_2,
		 org_name_2,
		 tag_type_id_2,
		 power
	from (select org_id_1,
				 org_name_1,
				 tag_type_id_1,
				 org_id_2,
				 org_name_2,
				 tag_type_id_2,
				 power,
				 row_number() over(partition by org_id_1,org_name_1,tag_type_id_1 order by power desc) row_id
			from gdm.tag_relation_cluster_function_06
			) t1
			where t1.row_id=1

最后，在实际应用中，我将疾病类标签（ort_name_1）归类到对应的科室（ort_name_2）下面，看了一下，效果基本上还差不多

福利：文末扫码立刻关注公众号，“Python爱好者社区”，开始学习Python课程：

关注后在公众号内回复“课程”即可获取：

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析！Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。

Python爱好者社区

为大家提供与Python相关的最新技术和资讯。

长按指纹 > 识别图中二维码 > 添加关注

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！