查看原文
其他

用户行为和分析建模:分析方法和案例

Lia 大数据应用 2022-10-18

今日份知识你摄入了么?

数据就像一种有语法的语言。正确的数据构成可以得出有用的见解和结论,改善公司的产品或业务战略!

一张图片胜过千言万语。这就是为什么数据可视化是很多问题的关键解决方案。有时,图片还可以帮助你认识到之前从未发现过的问题。



数据可视化可以用于数据清理、数据结构探索、异常值和异常组的检测、趋势和集群识别、局部模式发现、评估模型输出和结果的呈现。在探索性数据分析和数据挖掘中,检查数据质量,帮助分析人员熟悉面前数据的结构和特点是至关重要的。— MIT Press [1]

如果我确定了趋势,获取了数据,那下一步该怎么做呢?


我把它视为一种不停迭代的方法,你可以在进行可视化,然后更改方法,进行测试、验证并重复这个过程。那它究竟是指什么方法呢?它可以是引入模型进行深入研究,也可以是更改电子邮件活动的覆盖范围参数。


很好。但是,这对我的生意有什么帮助呢?


我个人更喜欢把数据科学和可以改进的事件联系起来。我们可以深入研究一个例子,看看数据和可视化是如何帮助你更好地了解消费者的,以及它在定性和定量方面的含义。最后,我们会看到定性与定量之间的关系。


接下来要用到的数据集,来自 UCI 机器学习知识库(Machine Learning Repository)的网上消费者意向(Online Shoppers Intention)[2]。过程使用了R语言进行分析。对于构建模型,80% 的数据用作训练集,其余 20% 用作验证集。


现在,我们来看看利用商业智能(Business Intelligence)和推荐(Recommendations)功能的可视化的作用!


1. 弹出率(Bounce Rate)和退出率(Exit Rate)的影响


弹出率(Bounce Rate)是网络营销的一个术语,被用于网站流量分析。该数字是指进入站点后离开页面,而不是继续浏览同一站点内其他页面的访客的百分比。


退出率(Exit Rate)也是网站流量分析中的一个术语,是指网站上某个页面的访客从该页面退出到另一个网站的百分比:访客是从某特定页面退出的。


弹出率是通过将一个页面访问量与总访问量相加而得出的,而退出率是通过将一个页面的总退出量与页面的总访问量相加而得出的。


两者密切相关,对吧?退出率和前一个阶段中访客的整体百分比有关,而弹出率则与这一阶段中访客的百分比有关。


因此可以说,所有弹出都可以是退出,但退出不一定是弹出。


(图片来源:作者)退出率和弹出率之间关系


  • 高弹出率可能和用户满意度有关,原因有很多,包括网站的用户界面、技术故障,甚至可以是缓慢的吞吐量。

  • 高退出率代表了跨漏斗的性能问题,从而需要进一步优化改进。


值得注意的一点是,所有数值数据似乎都显示出相对较高的正偏度(positive skewness)


现在我们已经发现了问题所在,那么有什么更好的建议吗?


  • 建议 1:通过各种方法优化登录页,例如, 用户页面(UI) 更加友好、在需要的地方使用图标、注意颜色带来的视觉影响、动态价格方法和更便宜的邮费。 

  • 建议2:基于漏斗优化,重新定向邮件,朝着个性化方向发展。个性化提高用户忠诚度,进而提高转化率和留存率!

  • 建议 3:当用户跳出超过阈值次数、或试图离开页面时,引入弹出窗口,提供个性化折扣。


2. 周末综合症和忠实用户


下图表明,大多数用户都能带来收入,但他们并不是真正的回头客。从该图中可以明显看出,我们需要关注转化率和留存率之间的平衡。为什么?虽然留存率代表品牌的发展和价值,但转换率会影响销售额及收入增长。大多数用户都选择在工作日消费,品牌可以进一步利用这一点在周末吸引用户。


(图片来源:作者)

改图描绘了按访客类型和周末状态的收入分布


  • 建议 4:利用你的忠实用户来吸引新用户,提供更多奖励和推荐活动(双方都可获得奖励)

  • 建议 5:在用户最不活跃的时间段进行限定活动/折扣,从而吸引用户。


3. 节假日期间转化率较低


从下图中,我们可以看出,自2月份起,有几个月的参与度一直处于较高水平,5 月之后呈下降趋势。随着黑色星期五的临近,参与度再次升高。当需求高时,用户粘性似乎很高,但转化率却明显较低,因为你可以看到,大多数带来收入用户都是回头客。因此,这可能意味着该项目的用户忠诚度非常好。但如你所见,转化率明显偏低。简而言之,有很多人浏览了产品,但并没有购买。


(图片来源:作者)


该图描绘了基于月份的收入状态和基于月份的访客类型的趋势线


  • 建议 6:季节性促销与促销活动/优惠。在保证留存率的同时,可以带来更多有价值的用户。


4. 其他收入来源!


这些图表显示的主要问题是谷歌 SEO 优化带来的影响,因为其中只有 45% 用户可以带来收入,表明 SEO/广告还有很大的改进空间。


(图片来源:作者) 

收入与操作系统、浏览器、区域和流量类型的关系图


  • 建议 7:验证所有浏览器和操作系统的流畅度给用户带来的体验。

  • 建议 8:使用 A/B 测试发布个性化广告,并扩大覆盖率,确保在更小区域内实现更高的转化率/保留率。

  • 建议 9:使用不同源的SEO,如谷歌,Bing,百度等。


那我到底要先实施哪些建议呢?建模有用吗?


特点的重要性可以帮助你确定:哪些数据属性可以更优先用于高效的业务模型部署。

我们可以使用扩展后的数据,将其输入到决策树(Decision Tree)中,帮助我们了解应该优先考虑模型的哪些特点。决策树非常适合用于分类,因为它们很容易优化和扩展。

(图片来源:作者)

使用决策树方法描述的特点重要性


正如我们所看到的,特点的重要性完全符合我们的建议。但是,Page Value 也很重要,这里我们还有另一条建议:


  • 建议 10:用户可能会浏览完全不同类型的产品及其推荐,这表明,推荐引擎和捆绑包在运用过程中还有改进的余地。此外,拓宽产品类别,利用长尾效应,对于推动收入也至关重要。


建模还给我们提供了另一条建议,我们刚开始可能无法注意到,但现在可以根据特点重要性优对以上建议进行优先级排序:


  • 建议 10 — 推荐引擎和包含“长尾”驱动的产品

  • 建议 9 — 通过社交媒体进行 SEO 优化和广告

  • 建议 1 — 优化着陆页

  • 推荐 7 — 流畅的技术操作和用户友好的用户界面

  • 建议 6 — 季节性促销和折扣

  • 建议 5 — 基于周末/时间的促销和折扣

  • 建议 4 — 新人折扣和忠实用户关系

  • 建议 8 — 基于区域的 A/B 测试和市场覆盖

  • 建议 2 — 个性化电子邮件重定向

  • 建议 3 — 带有个性化弹出窗口的退出率策略


通过这种方式,我们可以看到 EDA 和建模是如何直接与商业智能产生关联的,以及其强大的作用!


你是如何使用可视化来更好地解读你的观众的呢?欢迎在评论中写出你的想法!


参考:

[1] MIT Press, Why is Data Visualization Important? What is Important in Data Visualization?
[2] UCI Machine Learning Repository — Kaggle, Online Shoppers Intention

原文作者:Annette Catherine Paul

翻译作者:Lia

美工编辑:过儿

校对审稿:Jiawei Tong

原文链接:https://medium.com/delvify/modeling-ecommerce-customer-behavior-analysis-analytical-and-use-case-approach-5ed2fe3c361c

本周公开课预告



往期精彩回顾


如何回答ML机器学习的面试问题?

Snowflake  VS  BigQuery — 两个云数据仓库的对比

6步数字营销数据分析策略,帮你推动业务增长

Huber回归和Ridge回归:如何处理Python中的异常值?

商业分析师的面试问题,教你如何回答





点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课程

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存