吐血整理！万字原创读书笔记，数据分析的知识点全在这里了

查看原文

其他

吐血整理！万字原创读书笔记，数据分析的知识点全在这里了

Original JaneK 大数据DT 2020-09-08

收录于话题

#吐血整理

10个

导读：今天这篇文章是「大数据」内容合伙人JaneK关于《Python数据分析与数据化运营》的一篇读书笔记。在大数据公众号后台对话框回复合伙人，免费读书、与50万「大数据」同行分享你的洞见。

作者：JaneK，希望能够成为数据分析师来源：大数据DT（ID：bigdatadt）

本文目录：

Python数据分析与挖掘

01 基本知识

02数据获取

03数据预处理

04 分析与挖掘方法

Python数据化运营案例

05 会员数据化运营

06 商品数据化运营

07 流量数据化运营

08 内容数据化运营

09 数据化运营分析的终极秘籍

01 基本知识

1. 数据化运营

概念：指通过数据化的工具、技术和方法，对运营过程中的各个环节进行科学分析、引导和应用，从而达到优化运营效果和效率、降低成本、提高效益的目的。
分类：辅助决策式数据化运营（为业务决策方服务，整个过程都由运营人员掌控，数据是辅助角色）；数据驱动式数据化运营（数据是主体，需要IT、自动化系统、算法等支持，具有自主导向性、自我驱动性和效果导向性）
数据驱动式流程：数据需求沟通（需求产生、需求沟通）→数据分析建模（获取数据、预处理、分析建模、数据结论）→数据落地应用（数据结论沟通、数据部署应用、后续效果监测和反馈）

2. Python工具和组件

搭建Python环境、交互环境Jupyter
科学计算库：Numpy、Scipy、Pandas、Statsmodels、Imblearn、gplearn
机器学习库：scikit-learn、XGBoost、LightGBM、TPOT
自然语言处理库：结巴分词、Gensim
数据库连接库：MySQL连接库、MongoDB连接库
HTML处理库：Beautiful Soup
图形展示库：Matplotlib、Pyecharts
图像处理库：PIL和Pillow、OpenCV

02 数据获取

1. 数据来源

数据文件：以数字或文本形式存储的结构化的数据记录，数据格式类型有txt、csv、tsv、xls、xlsx、xml、html、doc、sql等
数据库：
关系型数据库（DB2、Sybase、Oracle、PostgreSQL、SQL Server、MySQL等）；
非关系型数据库（Redis、Tokyo Cabinet、Voldemort、MongoDB、CouchDB、Cassandra、HBase、Riak、Neo4J等）
API：
服务型API（基于预定义的规则，通过调用API实现特定功能）；
数据型API（通过特定语法，通过向服务器发送数据请求，返回特定格式的数据或文件）
流式数据：
用户行为数据流（围绕“人”产生的数据流；采集平台可分为Web站、移动站、App应用三类，前两类支持JS脚本采集，后者使用SDK）；
机器数据流（围绕“物”产生的数据流；通常集中在工业4.0、智能工厂等工业的智能运营管理过程中，也出现在物联网、人工智能等人和物的监控、识别、联通、互动等智能化应用中）
外部公开数据：
政府和相关机构提供的公开数据；
竞争对手主动公开的数据；
行业协会或相关平台组织提供的统计、资讯数据；
第三方的组织或个人披露的与企业相关的数据。
其他：例如提供调研问卷获得的有关产品、客户等方面的数据；购买数据等。

2. 获取数据

文本文件：

read
读取文件中的全部数据，直到到达定义的size字节数上限
内容字符串，所有行合并为一个字符串
readline
读取文件中的一行数据，直到到达定义的size字节数上限
内容字符串
readlines
读取文件中的全部数据，直到到达定义的size字节数上限
内容列表，每行数据作为列表中的一个对象
numpy.loadtxt
从txt文本中读取数据
从文件中读取的数组
numpy.load
可以读取Numpy专用的二进制数据文件
从数据文件中读取的数组、元组、字典等
numpy.fromfile
可以读取简单的文本文件数据以及二进制数据
从文件中读取的数据
pandas.read_csv
读取csv文件
DataFrame或TextParser
pandas.read_excel
读取excel文件
DataFrame或TextParser
pandas.read_fwf
读取表格或固定宽度格式的文本行到数据框
DataFrame或TextParser
pandas.read_table
读取通用分隔符分隔的数据文件到数据框
DataFrame或TextParser

Excel：xlrd、xlwt、pyexcel-xls、xluntils等第三方库
MySQL：sql语句
MongoDB：PyMongo提供了数据统计、分析和探索的基本方法
API：需要到特定平台进行注册，获得密钥等信息
网页：获取网页的源代码后进行解析
非结构化文本数据：侧重于特定场景，通用性较差
图像：

PIL.Image.open
读取图像内容
一个图像文件对象
cv2.imread
读取图像内容
一个图像文件对象
Matplotlib.pylot.imshow
展示图像
展示一个图像对象

视频：

cv2.VideoCapture
读取视频数据
一个视频对象

语音：audioop、aifc、wav等库，或调用API

03 数据预处理

1. 数据清洗

缺失值：对于缺失值的处理思路是先通过一定方法找到缺失值，接着分析缺失值在整体样本中的分布占比，以及缺失值是否具有明显的无规律分布特征，然后考虑后续要使用的模型中是否能满足缺失值的自动处理，最后决定采用哪种缺失值处理方法。

丢弃（直接删除带有缺失值的行记录或列字段）
简单明了；数据特征消减
不适用场景：a数据集总体中存在大量的数据记录不完整情况且比例较大；b带有缺失值的数据记录大量存在着明显的数据分布规律或特征。
补全（通过一定的方法将缺失的数据补上）
更为常用
常用补全的方法：a统计法,使用均值、众数等补足；b模型法，根据已有字段预测缺失字段的值；c专家补全；d其他，例如随机法、特殊值法、多重填补等。
真值转换法（将数据缺失作为数据分布分布规律的一部分，将变量的实际值和缺失值都作为输入维度参与后续数据处理和模型计算中）
认为不能轻易对缺失值随意处理的情况
例如：以性别字段，在无法进行补足且认为其有重要意义的情形下，进行真值转换。转换前为：性别（男、女、未知）；转换后为：性别_男（0或1），性别_女（0或1），性别_未知（0或1）
不处理
主要看后期数据分析和建模应用，很多模型对于缺失值有容忍度或灵活的处理方法
常见能够自动处理缺失值的模型有：KNN、决策树和随机森林、神经网络、朴素贝叶斯等。

异常值：
分为“伪异常”（由业务特定运营动作产生，正常反映业务状态的异常）和“真异常”（客观反映数据本身分布异常的个案）；
一般情况下，异常值会在预处理阶段被剔除；
无需抛弃异常值的情况：
a异常值正常反映了业务运营结果；
b异常检测模型，即异常数据本身是目标数据的情况；
c包容异常值的数据建模，即数据算法和模型对异常值不敏感。
重复值：
两种情况
a数据值完全相同的多条数据记录；
b数据主体相同但匹配到的唯一属性值不同；
一般情况下，通过去重方法处理重复值；
不建议去重的情况：
a重复记录用于分析演变规律；
b重复的记录用于样本不均衡处理；
c重复的记录用于检测业务规则问题

2. 标志转换

分类数据和顺序数据要参与模型计算，通常都会转换为数值型数据。
将非数值型数据转换为数值型数据的最佳方法是：将所有分类或顺序变量的值阈从一列多值的形态转换为多列只包含真值的形态，即真值转换。

3. 数据降维

是否降维主要考虑因素：维度数量；建模输出是否必须保留原始维度；对模型的计算效率与建模时效性的要求；是否要保留完整数据特征。

基于特征选择：根据一定的规则和经验，直接选取原有维度的一部分参与后续的计算和建模过程。其优点是，在保留了原有维度特征的基础上进行降维，既能满足后续数据处理和建模的要求，又能保留维度原本的业务含义，便于业务理解和应用。

经验法：根据业务专家或数据专家的以往经验、实际数据情况、业务理解程度等进行综合考虑。
测算法：通过不断测试多种维度选择参与计算，通过结果来反复验证和调整，并最终找到最佳特征方案。
基于统计分析的方法：通过相关性分析去除相关性较高的维度，或通过计算找到具有较高互信息的特征集
机器学习算法：通过机器学习算法得到不同特征的特征值或权重，然后再根据权重来选择较大的特征。

基于特征转换：按照一定的数学变换方法，把高维数据映射到低维空间；产生新维度。

PCA（主成分分析）：按照一定的数学变换方法，把给定的一组相关变量通过线性变换转成另一组不相关的变量。
FA（因子分析）：从变量群中提取公共因子
LDA（线性判别分析）：将高位的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果。
ICA（独立成分分析）：利用统计原理进行计算的方法，本质上是一个线性变换，它将数据或信号分离成统计独立的非高斯的信号源的线性组合。

基于特征组合：实际上是将输入特征与目标预测变量做拟合的过程；很多时候并不能减少特征的数量。

基于单一特征离散化后的组合：先将连续型特征离散化，然后基于离散化后的特征组合成新的特征，例如RFM模型。
基于单一特征的运算后的组合：对单一列基于不同条件下获得的数据记录做求和等计算，从而获得新的特征。
基于多个特征的运算后的组合：对多个单一特征直接做复合运算，从而形成新的特征。
基于模型的特征最优组合：在特定的优化函数前提下做模型迭代计算，以达到满足模型最优的解，例如基于多项式的特征组合、基于GBDT的特征组合等。

4. 样本分布不均

常见场景：异常检测场景；客户流失场景；罕见事件的分析；发生低频率的事件。

过抽样和欠抽样
增加少数类样本的数量或减少多数类样本的数量
最为常用
正负样本的惩罚权重
少数样本类权重高，多数样本类权重低
不需要对样本进行额外处理，思路更加简单和高效
组合/集成方法
每次训练时使用全部少数类样本和部分多数类样本，最后使用组合方法产生分类预测。
适合计算资源充足且对模型的时效性要求不高的情形
特征选择
选择具有显著型的特征配合参与解决岩本不均衡问题
可用于非监督式方法

5. 样本抽样

抽样原因：数据计算资源不足；数据采集限制；时效性要求。
方法：简单随机抽样；等距抽样；分层抽样；整群抽样。
要求：数据抽样要能反映运营背景；要能满足数据分析和建模需求。

6. 共线性问题

检验共线性的指标：

容忍度
每个自变量作为因变量对其他自变量进行回归建模时得到的残差比例
大小用1减得到的决定系数
介于0与1之间，值越小说明这个自变量与其他自变量间存在共线性问题的可能性越大
方差膨胀因子
容忍度的倒数
<10说明不存在多重共线性
介于10到100说明存在较强的多重共线性
≥100则存在严重共线性
特征值
即进行PAC
如果存在多个维度的特征值等于0则可能有比较严重的共线性

常用方法：

增大样本量
可消除由于数据量不足而出现的偶然共线性现象
优先考虑
岭回归法
通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数
常用于存在较强共线性的回归应用中
逐步回归法
每次引入一个变量，如果原来引入的变量由于后来变量的引入变得不再显著，则将其剔除，逐步得到最优回归方程
主成分回归
基于主成分做回归分析
可以在不丢失重要数据的情况下解决共线性
人工去除
结合人工经验
需要对业务、数据的深入理解

7. 相关性理解

相关性≠因果：相关性表示变量间是逻辑上的并列相关关系；因果联系解释为因为x1所以x2。
相关系数：相关系数R的取值范围是[-1,1]，绝对值越大则相关性越大，正值表示正相关，负值表示负相关。

8. 标准化

目的：处理不同规模和量纲的数据，使其缩放到相同的数据区间和范围，以减少规模、特征、分布差异对模型的影响。

Z-Score：y=(x-均值）/标准差
适合大多数类型的数据；标准化后是均值为0，方差为1的正太分布；是一种中心化方法，不适于稀疏数据
Max-Min：y=(x-最小值)/(最大值-最小值)
数据落入[0,1]之间，能够较好保持原有数据结构
MaxAbs：y=x/所在列最大值的绝对值
数据落入[-1,1]之间，不破坏原有数据分布结构，可用于稀疏数据
RobustScaler
针对离群点做标准化处理，对数据中心化和数据的缩放鲁棒性有更强的参数控制

9. 离散化

针对时间数据：离散化为分类数据（如上午、下午）；离散化为顺序数据（如周一、周二、周三）；离散化为数值型数据。
针对多值离散数据：需要考虑新的建模要求或业务逻辑的变更。
针对连续数据：分位数法、距离区间法、频率区间法、聚类法、卡方。
针对连续数据的二值化：设定阈值。

04 分析与挖掘方法

1. 聚类分析

典型算法：K均值、DBSCAN、两步聚类、BIRCH、谱聚类等

K均值对数据的异常点和异常量纲敏感，可选择DBSCAN。
聚类分析的结果提供了样本集在非监督模式下的类别划分，这种划分结果除了可以做群类别间的差异特征分析、群类别内的关键特征提取、样本群划分等分析功能外，还可以用于例如图像压缩、图像分割、图像理解、异常检测、数据离散化等任务的中间过程。
子空间聚类算法是高维数据空间中对传统聚类算法的一种扩展，其思想是选取与给定簇密切相关的维，然后再对应的子空间进行聚类。

算法选择：

高维数据集选择谱聚类；
中小规模数据量选择K均值；
超大数据量时应该放弃K均值算法，可以选择MiniBatchKMeans；
数据集中有噪点选择DBSCAN；
谱聚类比K均值具有更高的分类准确度。

2. 回归分析

常用算法：线性回归、二项式回归、对数回归、指数回归、核SVM、岭回归、Lasso等。
应用回归模型时，注意识别和解决自变量间的共线性问题。
算法选择：
多重共线性可选择岭回归法；
噪音较多时可选择主成分回归；
高维度时可使用正则化回归方法；
需要同时验证多个算法，并想从中选择一个来做好的拟合，可以使用交叉验证；
注重模型的可解释性时选择简单的线性回归、指数回归、对数回归等；
确认多个方法且不确定该如何取舍时可以将多个回归模型做成集成或组合方法使用。

3. 分类分析

常用算法：朴素贝叶斯、逻辑回归、决策树、随机森林、支持向量机
防止过拟合：使用更多数据；降维；使用正则化方法；使用组合方法。
算法选择：
文本分类常使用朴素贝叶斯；
训练集较小时选择朴素贝叶斯和支持向量机；
训练集较大时各算法准确度相近；
关注时效性和易用性时不推荐支持向量机和神经网络；
重视准确率选择支持向量机、GBDT、XGBooost等基于Boosting的集成方法；
重视稳定性和鲁棒性选择随机森林、基于Boosting的集成方法；
需要预测结果的概率信息选择逻辑回归；
担心离群点或数据不可分并且需要清晰的决策规则选择决策树。

4. 关联分析

常用算法：Apiori、FP-Growth、PrefixSpan、SPADE、AprioriAll、AprioriSome等。
频繁规则不一定是有效规则
在关联分析上，python逊色于R

5. 异常检测分析

常用方法：基于统计的异常检测方法、基于距离的异常检测方法、基于密度的离群检测方法、基于偏移的异常点检测方法、基于时间序列的异常点检测方法。
分析场景：异常订单识别、风险客户预警、黄牛识别、贷款风险识别、欺诈检测、技术入侵等。

6. 时间序列分析

常用算法：移动平均（MA）、指数平滑（ES）、差分自回归移动平均模型（ARIMA）三大类。
在商业环境复杂的企业，时间序列很难发挥作用。
时间序列预测的整合、横向、纵向模型。

7. 路径、漏斗、归因和热力图分析

漏斗分析：网站分析的基本方法，可以查看特定目标的完成和流失情况。其典型应用场景是分析站内流程。
路径分析：网站分析的基本方法，常用于分析不同页面引流和前后路径关系。
归因分析：又叫订单转化归因或归因模型，主要用于评估多个参与转化的主体如何分配贡献大小。
热力图分析：网站分析的重要方法，主要作用是分析单个页面内的点击分布，是单页面用户体验分析的重要途经，可分为基于链接的热力图和基于像素的热力图。

8. 其他忠告

注意验证数据质量
不要忽视数据的落地性，要结合业务实际
不要把数据陈列当作数据结论
数据结论不要产生于单一指标
数据分析不要预设价值立场，要秉持着客观、公正的态度去对待基于数据的决策项目
不要忽视数据于业务的需求冲突

05 会员数据化运营

1. 重要指标

会员整体指标：

注册会员数：根据注册时间周期的不同，又细分为累积注册会员数、新增注册会员数等
激活会员数：根据激活时间周期不同，又可分为累积激活会员数、新增激活会员数等；可延伸出会员激活率等相对转化率指标
购买会员数：根据购买时间周期不同，可细分为累积购买会员数、新增购买会员数等；可延伸出注册-购买转化率、激活-购买转化率等相对转化率指标

会员营销指标：

可营销会员数：会员可营销方式包括：手机号、邮箱、QQ号、微信等具有可识别并可接触的信息点，具备这些信息中的任何一种便可形成可营销会员
营销费用：一般包括营销媒介费用、优惠券费用和积分兑换费用
营销收入：通过会员营销渠道和会员相关运营活动产生的收入
用券会员/金额/订单比例：会员营销时大多数情况下都会使用优惠券，这不仅时促销销售的一种方式，也是识别不同会员订单来源的重要途经；除此以外还包括基于用券数据产生的用券用户平均订单金额、用券用户复购率等先惯指标
营销费率：是会员营销费用占营销收入的比例，目的是监督营销费用的支出情况，确保其不超出计划指标
每注册/订单/会员收入：单位收入是评估收益效率的重要指标
每注册/订单/会员成本：单位成本的考量是精细化业务动作的关键指标之一

会员活跃度指标：

整体会员活跃度：对每个会员的活跃度数据加权求和
每日/每周/每月活跃用户数：在对应的时间周期内重复，即当有用户多次完成事件时会在周期内只计算一次

会员价值度指标：

会员价值分群：并不是真正的指标，而是给用户打标签，用来显示用户的状态、层次和价值区分等
复购率：一定周期内购买多次的会员比例
消费频次：可有效分析用户对于企业的消费黏性
最近一次购买时间：可以作为会员消费价值黏性的估计因素
最近一次购买金额：可用于衡量用户的消费能力

会员终生价值指标：

会员生命周期价值/订单量/平均订单价值：与任何时间周期无关，衡量的是用户完整生命周期内的价值，能从整体上获得会员的宏观状态
会员生命周期转化率：指会员在完整生命周期内完成的订单和到达网站、企业、门店的次数比例，衡量了用户是否具有较高的转化率
会员生命周期剩余价值：用来预测用户在其生命周期内还能产生多少价值，可细分出很多相关指标，例如预期未来30天的会员转化率、预期生命周期剩余订单价值、预期7天内下单数量等

会员异动指标：

会员流失率：需要关注会员流失率的数值、走向两个方面
会员异动比：指新增会员与流失会员的比

2. 应用场景

会员营销：

以信息化的方式简历基于会员的客户关系管理系统，促进所有会员数据的信息化
通过特定方法将普通用户扩展为企业会员，并提高新会员留存率
基于用户历史消费记录，挖掘出用户潜在消费需求及消费热点
基于历史数据，为会员营销活动提供策略指导和建议，促进精准营销活动的开展
从会员营销结果中寻找异常订单或转化，作为识别黄牛或VIP客户的参考
挖掘会员传播关系，找到口碑传播效应的关键节点

会员关怀：

为预警时间设置阈值，自动触发应急处理机制
分析会员行为，为会员提供个性化、精准化、差异化服务
通过会员喜好分析，提高客户忠诚度、活跃度和黏性
通过会员分析，预防会员流失，并找到挽回已经流失会员的方法
基于会员群体行为，更好地划分会员群体属性并挖掘群体性特征
基于群体用户和内容相似度，发现有价值的会员互动方式
基于会员生命周期的关怀管理，促进用户终生价值最大化

3. 分析模型

会员细分模型：将整体会员划分为不同的细分群体或类别，然后基于细分群体做管理、营销和关怀。

基于属性的方法：常用的细分属性包括：会员地域、产品类别、会员类别、会员性别、会员消费等级、会员等级等
ABC分类法：根据事物的主要特征做分类排列，强调分清主次
聚类法：常用的非监督式方法

会员活跃度模型：RFE模型是根据会员最近一次访问时间R、访问频率F和页面互动度F计算得到RFE得分，常用来做用户活跃分群或价值区分，可用于内容型（如论坛、新闻、资讯等）企业的会员分析。
会员价值度模型：RFM模型是根据会员最近一次购买时间R、购买频率和购买金额M计算得到RFM得分，常用来做客户分群或价值区分，该模型常用于电子商务（即交易类）企业的会员分析。
会员流失预测模型：其实现方法属于分类算法，常用算法包括逻辑回归、支持向量机、随机森林等。
会员特征分析模型：主要用于两种业务场景，一种是在没有任何前期经验或特定目标下触发，希望通过整体特征分析了解会员全貌，常用的实现方法有聚类、统计分析；另一种是有明确的业务方向，希望找到能达到事件目标的会员特征，用于做进一步的会员运营，常用方法有分类、关联、异常检测。
营销响应预测模型：是针对营销活动展开的，通常在做会员营销活动之前，通过营销响应预测模型分析，找到可能响应活动的会员特征及整体响应的用户比例、数量和可能带来的销售额。其实施一般采用分类算法，常用算法包括逻辑回归、支持向量机、随机森林等。

4. 小技巧

使用留存分析做新用户质量分析时，要区分应用不同的的留存周期，注意观察和分析衰减比率以及运营活动对于留存的影响。
使用AARRR做App用户生命周期分析：AARRR是Acquisition、Activation、Retention、Revenue、Refer（获取用户、提高活跃度、提高留存率、获取收入、自传播）的缩写。
借助动态数据流关注会员状态的轮转，基于动态的时间周期，可以有效分析用户的状态轮转变化，可以从整个周期的视角发现会员状态的全貌。
使用协同过滤算法为新会员分析推送个性化信息，协同过滤主要解决的问题是当客户进入某个领域后，发现他可能感兴趣的东西，然后以用户的兴趣点为出发点向其推荐内容，以此来提高用户体验、用户交互频率提高、订单转化效果、销售利润提升等，当前主要用于电子商务网站、兴趣部落网站、知识性网站、话题型网站、社交性网站的个性化项目推荐。

06 商品数据化运营

1. 重要指标

销售指标：

订单量/商品销售量：订单量用来衡量唯一订单的数量，商品销售量用来衡量商品的总销量
订单金额/商品销售额：两者都是商品总销售收入的评估指标，前者侧重于用户实际付款，包含运费、优惠等，后者侧重于总收入，不包含任何其他费用或优惠金额
每订单金额/客单价/件单价：用评估单位对象的价值产出，分别侧重于订单个体、用户个体和商品个体
订单转化率：是电子商务网站最重要的评估指标之一，计算方法是：订单转化率=产生订单的访问量/总访问量或产生订单的UV/总UV量
支付转化率：针对先款后货客户的转化评估指标
有效订单量/有效订单金额/有效商品销售量/有效商品销售额：可延伸出有效件单价、有效订单状态率、有效客单价等指标
订单有效率/废单率：两者和为1
毛利/毛利率：两者综合反映了商品的盈利规模和盈利能力

促销活动指标：

每订单成本/每有效订单成本：费用/（有效）订单量
每优惠券收益/每积分兑换收益：每优惠券收益=优惠券带来的订单成交金额/优惠券数量；实际中两者可能出现订单贡献重复计算的情况
活动直接收入/活动间接收入：用户购买促销商品和非促销商品的收入情况
活动收入贡献：活动收入贡献占比=（活动直接收入+活动间接收入）/全站订单成交金额
活动拉升比例：可以指销量拉升、销售额拉升、订单量拉升等；活动拉升比例=（活动期间收入/非活动期间收入）-1

供应链指标：

库存可用天数：库存可用天数=库存商品数量/期内每日商品销售数量；过长的可用天数可能意味着商品滞销
库存量：企业通常会定义安全库存量、最低库存量和最高库存量
库龄：一般按照先进先出、先进先销原则出库，同一个商品的库龄要按照其相应进货批次的时间计算
滞销金额：可以衍生出滞销金额占比、滞销SKU占比、滞销商品销量占比等指标
缺货率：缺货率=缺货商品数量/用户订货数量；可衍生出缺货金额、缺货商品数量等指标
残次数量/残次金额/残次占比：指由于商品库存、搬运、装卸等因素造成的商品外包装损坏、产品损坏等影响商品二次销售的情况
库存周转天数：库存周转天数=360/库存周转率，其中库存周转率=年销售商品金额/年平均库存商品金额

2. 应用场景

商品数据化运营的主要场景包括销售预测、库存分析、市场分析和促销分析
销售预测主要应用的是销售预测场景，通过对历史数据的分析，预测未来一段时间内企业可能产生的销售额、销售量或订单金额等。
库存分析是商品动销分析的关键点之一，也是商品销售的基础和前提，其关键是找到脱销和滞销的平衡点。
市场分析：主要应用于对商品所在市场的规模、特点、容量、性质、趋势等方面的宏观分析，既可以侧重于单个商品，也可以侧重于品牌、品类等更高聚合的维度，并且能从宏观角度评估所有商品本身及所处市场的优劣得失。
促销分析：是商品数据化运营应用最为广泛的场景之一，其涵盖的策略制定、实时监测、后期分析等各个场景都是商品运营值得关注的环节，也是数据产生可量化价值的主要场景。

3. 分析模型

商品价格敏感度模型：指通过研究找到用户对于价格是否敏感以及敏感程度的价格杠杆，辅助于销售定价、促销活动的折扣方式、参考价格、价格变动幅度等方面的参考。可以通过调研问卷法、数据建模法实现。
新产品市场定位模型：用于企业新生产或策划一款产品时，需要根据市场上现有的竞争对手产品情况做定位分析。可通过基于相似度的方法实现。
销售预测模型：根据历史的销售数据来预测未来可能产生的销售情况，常用于促销活动前的费用申请、目标制定、活动策划等的辅助支持。可通过时间序列、回归和分类方法实现。
商品关联销售模型：主要用来解决哪些商品可以一起售卖或不能一起打包组合的问题。其实现方式时关联类算法，主要实现的是基于一次订单内的交叉销售及基于时间序列的关联销售。
异常订单检测：用来识别在订单（尤其是促销活动中的订单）中的异常状态，目的是找到非普通用户的订单记录，例如黄牛订单、恶意订单、商家刷单等。其实现主要是基于监督式分类算法和基于非监督式的算法这两类方法。
商品规划的最优组合：在一定限制条件下考虑通过何种组合策略来实现最大或最小目标。可通过线性规划来实现。

4. 小技巧

层次分析法是一种将定性分析和定量分析相结合的方法，非常方便且实用，但其缺点在于不能使用太多的决策变量，且决策变量间必须具有相对独立的特征。
一般情况下，企业做促销活动都会同时产生销售额提升的现象，但不能看到销售提升就盲目认为是促销活动导致的，需要通过多种假设检验的方式做显著性分析。
使用波士顿矩阵做商品结构分析能够将不同商品或业务放到一个平面做对比，并且基于公司的整体出发来考虑资源间的最优配置和调整方法。
在做商品数据化运营分析的过程中，在没有成型可用的思路之前，可以考虑从4P（产品、价格、渠道、促销）的角度出发去搭建商品运营分析的基本思路，这是非常有效的初始化打破僵局的方法。

07 流量数据化运营

流量数据化运营要解决的本质问题是如何通过数据获得更多流量以及有效流量，然后完成最大化的营销转化目标。
流量分析工具：Adobe Analytics、Webtrekk Suite、Webtrends、Google Analytics、IBM Coremetrics、百度统计、Flurry、友盟
流量采集分析系统的工作机制包括数据采集、数据处理和数据应用3个部分。

1. 重要指标

站外营销推广指标：

曝光量：广告曝光是衡量广告效果的初级指标，通常用来衡量展示类广告
点击量：指站外广告被用户点击的次数
点击率：点击率=点击量/曝光量；反映了用户对当前广告的喜好程度，也反映了所投放的媒介用户质量与投放广告的匹配度
CPM：每千人成本
CPD：每天展示成本
CPC：每次点击成本
每UV成本：指点击站外广告到达网站后，每个UV的成本
每访问成本：指点击站外广告到达网站后，每个访问的成本
ROI：指投入费用所能带来的收益比例
每点击/UV/访问/目标转化收益：不同单位的收益

网站流量质量指标：

访问深度：访问深度=PV/访问量
停留时间：指用户在网站或页面停留时间的长短
跳出/跳出率：跳出率=跳出的访问/落地页访问
退出/退出率：退出率=页面退出的访问/退出页面的访问
产品页转化率：产品页转化率=产品页访问量/总访问量
加入购物车转化率：加入购物车转化率=加入购物车访问量/总访问量
结算转化率：结算转化率=结算访问量/总访问量
下载转化率：下载转化率=下载访问量/总访问量
注册转化率：注册转化率=注册会员量/总UV数
购物车内转化率：购物车内转化率=提交订单的访问量/加入购物车的访问量

网站流量数量指标：

到达率：到达率=到达量/点击量
UV：独立访客；只与时间有关
Visit：访问量、访问次数、会话次数
PV：页面浏览量
新访问占比：评估站外广告投放效果的重要指标，尤其对于吸引新用户关注为目的的渠道具有重要意义
实例数：衡量站内自定义对象的触发次数

2. 应用场景

流量采购：指通过多种媒介和广告渠道采集或购买流量，从而实现流量目标。在流量采购方面，数据主要支撑流量预测、效果评估、效果分析、作弊检测这4个方面的内容。
流量分发：指如何对流量进行内部分配，通常这部分工作由网站运营中心完成。运营中心通过内部广告、活动引导、自然引导、个性化推荐4种方式进行流量分发。

3. 分析模型

流量波动检测：该模型可以对具有相对稳定或具有一定时间规律特征的数据做检测分析。
渠道特征聚类：当企业投放众多广告媒体时，第一次对如此多的媒体多特征分析可能无从下手，此时可以考虑对广告渠道特征进行聚类，然后从几类具有比较显著的群体上再深入挖掘。
广告整合传播模型：指所有企业的广告和传播活动都以统一的策略作为指导，通过一定方式的组合来实现传播效果的最大化目标。
流量预测模型：通过广告流量预测模型可以基于现有的流量及广告费用水平等因素，预测在一定条件下可以产生多少流量。

4. 小技巧

通过关键指标和适当图形展示分析结果
关注趋势、重要事件和潜在因素是日常报告的核心
通过跨屏追踪解决用户跨设备和浏览器的访问行为
基于时间序列的用户群体过滤能应用到很多具有明显事件先后顺序的分析场景中

08 内容数据化运营

1. 主要指标

内容质量指标：

原创度：主要通过与网站本身内容和互联网已有内容做对比

SEO类指标：

收录数量/比例：指所有内容中能被搜索引擎检索并加入到期内容索引中的数量
收录速度：新内容被收录得越快，越能尽早吸引有相关兴趣的读者关注
关键字排名：指在搜索引擎中搜索某个文章相关的关键字时，自身网站在整个搜索引擎中的排名。
点击量和点击率：衡量用户点击程度和信息匹配程度的重要指标

内容流量指标：参考流量运营指标

内容互动指标：

收藏量：相关指标有人均收藏量、每内容收藏率等
点赞量：相关指标有点赞率、平均评分、最高（低）评分等
评论量
传播量/传播率：例如转发、分享等
二次转播率：二次传播是产生巨大传播效应的基础
目标转化目标：由网站目标决定

2. 应用场景

内容采集：内容运营的起始流程
内容创作：是自身生产内容的过程，主要涉及内容的主题、标题、排版、插图等内容本身，也包括基于SEO相关策略的内容优化
内容分发：基于一定的分发策略将内容推送给特定目标对象的过程，其核心是如何让用户更高效、精准地触达内容
内容管理：指对内容相关信息的审核、校验、识别、分析等，是管控和治理等日常性操作事物的统称

3. 分析模型

情感分析模型：用于分析特定对象对相关属性的观点、态度、情绪、立场以及其他主观感情的技术，主要应用有竞争情报、舆情监测、客户倾向分析、话题监督、口碑分析等。常用方法有朴素贝叶斯、KNN、SVM等监督学习算法、非负矩阵分解等。
搜索优化模型：可以帮助用户更快地找到感兴趣的潜在内容，可用于搜索过程中的联想功能、相关的结果提示和二次搜索建议。常用关联模型实现。
文章关键字模型：生成简短的关于文档内容的提示性信息，节省用户大量的浏览时间。常用方法有词频统计、TF-IDF等
主题模型：提炼文字中隐含主题的一种建模方法，常用的主题模型有：LDA、pLDA、基于LDA的衍生模型等。
垃圾信息监测模型：用于检测特定对象是否包含垃圾信息，可用分类模型来实现。

4. 小技巧

A/B测试包括双变量测试和多变量测试，是网站优化的基本方法，常见于高级网站分析系统。
可用通过屏幕浏览占比了解用户在页面上看到了多少内容
实现个性化内容运营需要打通数据分析系统和内容管理系统
目前针对App的个性化推荐和运营主要采用两种形式，一种是通过调用网站端的挖掘结果，一种是只针对App上的简单场景进行应用。

09 数据化运营分析的终极秘籍

1. 撰写出彩的数据分析报告的5个建议

具有完整的报告结构；
有精致的页面版式；
具有漂亮的可视化图形；
突出报告的关键信息；
用报告对象习惯的方式撰写报告

2. 数据化运营支持的4种扩展方式

数据API
数据模型
数据产品
运营产品

3. 提升数据化运营价值度的5种途经

数据源（不只有结构化数据）
自动化（简历自动工作机制）
未卜先知（建立智能预警模型）
智能化（向商业智能和人工智能的方向走）
场景化（将数据嵌入运营环节之中）

小结：学习感受
这本书很适合数据分析初学者使用，不仅有详细的理论内容，而且配有丰富的案例分析。这本书中的很多知识点很多很细，而且很多是作者的经验总结，记住它们不是主要目的，只有真正通过实践和理解才能领悟。看过之后，对数据化运营会有一个全面的认识，是一本值得反复阅读学习的好书。

本文为「大数据」内容合伙人JaneK原创读书笔记，转载请与我们联系。

延伸阅读《Python数据分析与数据化运营》（第2版）点击上图了解及购买转载请联系微信：DoctorData

推荐语：这是一本将数据分析技术与数据使用场景深度结合的著作，从实战角度讲解了如何利用Python进行数据分析和数据化运营。本书与同类书大的不同在于，并不只有纯粹的关于数据分析技术和工具的讲解，而且还与数据使用场景深度结合，在业务上真正可指导落地。此外，本书作者提供微信、邮箱等，可通过实时和离线两种方式及时为读者在线传道、受业、解惑。

「大数据」内容合伙人之「鉴书小分队」上线啦！

最近，你都在读什么书？有哪些心得体会想要跟大家分享？

数据叔最近搞了个大事——联合优质图书出版商机械工业出版社华章公司发起鉴书活动。

简单说就是：你可以免费读新书，你可以免费读新书的同时，顺手码一篇读书笔记就行。详情请在大数据公众号后台对话框回复合伙人查看。

据统计，99%的大咖都完成了这个神操作👇

点击阅读原文，了解更多

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！