商务统计学基础 | 第四章 数据类型与回归模型
在上一节我们从“道”的层面,介绍了回归分析的思想。简单来说,回归分析就是研究X和Y的相关性。在回归分析思想的指导下,实际中很多的业务问题,都可以被规范成为一个数据可分析问题。从本节开始,我们从“术”的层面来详细学习回归分析的各种方法。在选择回归分析方法时,一个非常重要的考虑因素就是因变量Y的数据类型。下面,我们将根据Y的不同数据类型,为大家介绍最常见的五种回归分析模型,它们分别是:线性回归、0-1回归、定序回归、计数回归、以及生存回归,我们将其称之为“回归五式”。希望通过这样的讨论,帮助大家快速建立一个回归分析理论的大概框架。
第一式:线性回归
前面我们提到,回归分析就是关于X和Y相关性的分析。那么具体到线性回归,或者更严格地说,普通线性回归,它的主要特征是什么呢?普通线性回归的主要特征就是:它的因变量必须是连续型数据。什么是连续型数据?简单通俗的讲,就是数据的取值需要是连续的。例如:身高、体重、价格、温度都是典型的连续型数据。我们在第一章中介绍的各种连续型概率分布,所对应的数据就是连续型数据。从数学理论上定义一个“连续”型数据不是一个非常平凡的事情。这是微积分与实变函数论的内容,本书不做深入探讨。但是我们希望指出的是,在实际工作中,所有的计算机都只能存储有限位的有效数字,因此,真实世界中不存在严格的连续型数据,只有近似连续的数据。而判断数据是否近似连续的一个简单而且不严格的标准是:把所有可能取值从小到大排序,看相邻两个数的差距相对于整个取值范围而言是否足够小。例如价格有时精确到一角甚至一分,而价格的范围可以小至一元或是大至百万,因此价格满足近似连续的特征,在真实世界中可以近似看作连续型数据。连续型数据在我们的生活中有着非常多的重要应用。请看以下案例。
案例1:股票投资。
据上海证券交易所官方统计,截止至2021年12月31日,上交所已有2037家上市公司,股票总市值达到52万亿元,庞大的股市体量为各类金融机构以及个体投资者进行投资交易提供了基础。在股票投资场景中,投资人最关心的核心业务指标就是某只股票或者某资产组合的未来收益率,因此因变量Y就是股票收益率。图4.2.1展示了6支上交所的主板A股在一段时间内的日度收益率数据,可以看到日度收益率精确到了小数点后第4位,相对于收益率取值范围(±10%)而言,两者之间的最小差距(0.0001%)已经足够小了。因此,可以认为股票收益率是一个连续型数据。在关注股票收益率Y的变化的同时,投资人可能也关心有哪些显著影响股票收益率的因素X,例如X可以是该股票背后企业的财务会计指标。根据经典的财务会计教科书描述,常见的财务会计指标包括但不限于净资产收益率、总负债与总资本比率、流动比率等等,上述三个指标分别能够反映该企业的盈利能力、长期债务偿还能力和短期债务偿还能力。如果能够建立Y和这一系列影响因素X的相关关系,那么就可以通过X去预测Y,然后构建合理的交易策略,实现超额收益率。
图4.2.1 上交所6支主板A股在一段时间内的日度收益率(单位:%)
案例2:客户终身价值。
客户是企业的重要资产,高价值用户往往是企业收入与利润来源的重要支撑。以智能电视行业为例,据统计,截止至2020年我国智能电视激活数超2.55亿,家庭渗透率已达54.6%。和传统彩电不同,智能电视带来的营收除了来源于售卖设备本身之外,还来源于用户在该设备上长期产生的消费。例如,电影点播、会员充值、广告观看等。因此,目标客户的终身价值Y可定义为:客户从购买电视起到无限远时间内给企业创造的收入,并按一定利率折现到当期的货币价值。考查一个具体案例,图4.2.2展示了某用户购买和使用电视过程中的消费记录,由此可见当前该客户已经创造了6358元的营收。假设该用户未来还将创造大量的预期收入,这些预期收入按一定利率折现到当期后大概为400元,那么该客户的终身价值Y即为6358+400=6758元。由于相对于终身价值取值范围而言,两数之间的最小差距(0.01元)已经足够小了,因此因变量客户终身价值Y可以被近似地看作一个连续型数据。而影响客户终身价值Y的因素X可能包括图4.2.2中展示的已消费数额、日开机率、日平均使用时长、用户满意度调研评分等等。如果能够建立Y和一系列X的相关关系,那么就可以通过X去预测Y,帮助企业识别潜在的高价值客户,为个性化的客户管理与运营提供理论基础。
图4.2.2 某用户的个人特征及购买电视后的消费记录
案例3:高血压筛查。
高血压是一种非常普遍的慢性疾病,研究显示2017年我国35岁以上居民高血压患病率达到37.2%。据世界卫生组织报告,高血压也是世界范围内早逝的主要原因,并且全球患有高血压的成年人中仅有42%得到诊断和治疗。在此背景下,我国在《“健康中国2030”规划纲要》中已将高血压等慢性疾病的管理上升到国家战略层面。在高血压防治中的重要一环是定期筛查,早发现早治疗。在此过程中,患者最关心的测量指标很可能就是自己的血压值,因为血压测量值是高血压诊断的最主要指标。根据2005年中国高血压治疗指南建议,收缩压大于等于140mmHg,舒张压大于等于90mmHg可以诊断为高血压。所以在此案例中血压测量值就是因变量Y。下图4.2.3展示了一款常见的家用电子血压计,可以看到收缩压和舒张压一般都精确到了个位。相对于血压取值范围而言,1mmHg数值较小,因此因变量血压Y可以视为一个连续型数据。而影响血压Y的因素X可能包括个人的饮食习惯、服药习惯、BMI(身体质量指数)等等。深刻理解一个人的血压Y,与各种相关因素X之间的关系,对于改进健康、降低医疗开支,有重要的意义。
图4.2.3 某家用电子血压计示意图
第二式:0-1回归
虽然普通线性回归已经能够解决生活中的很多问题了,但当因变量不是连续型数据时(例如0-1型数据),普通线性回归就不再适用了。此时的一种解决方案是使用0-1回归。顾名思义,0-1回归的主要特征是:因变量必须为0-1型数据,即因变量有且仅有两个可能的取值。例如:股票涨跌、是否患病、是否购买都是典型的0-1型数据。对于0-1型数据,我们在1.5节中已经进行了较为丰富的介绍。0-1型因变量在我们的生活中非常普遍,请看以下案例。
案例1:发病因素探索。
“人类的生存史就是与传染病斗争的历史”,中国工程院院士李兰娟在博鳌亚洲论坛上如是说道。不只是传染病,寄生虫病、免疫系统疾病、肿瘤等等疾病都威胁着人类的健康。由世界卫生组织主持编写并发布的最新版《国际疾病分类》(ICD-11)中共收录了约55000个疾病分类编码,而这一数量还在随着一次又一次的修订而增加。医学研究有助于了解和攻克这些疾病,并提升人类的健康水平。在疾病的医学研究中,探索疾病有关的影响因素是重要的一环。在此过程中,人们关心的是在不同因素和条件背景下,实验者是否患病。因此在发病因素探索的案例中,因变量Y就是“是否患病”,这显然是一个0-1型数据。在流行病学研究中,一种探索发病因素的经典方法是进行病例对照研究。以1989年发表在英国癌症杂志(British Journal of Cancer)上的一篇研究卵巢癌影响因素的病例对照研究为例,该研究招募了235名患有上皮性卵巢癌的病人和451名未患该疾病的对照人群。研究中收集了一些可能与因变量Y有关的影响因素X,图4.2.4展示了该研究中的部分影响因素,其中包括了是否有妊娠经历、妊娠次数和未完成妊娠次数三项因素。事实上该研究中还考虑了年龄、口服避孕药使用时间等20余项影响因素X。接着通过建立Y和这些影响因素X的相关关系,找到与是否患病显著相关的影响因素。该项研究成果能够帮助疾病防治和早筛,并在一定程度上帮助评估个体的患病风险。
图4.2.4 卵巢癌病例对照研究中的部分影响因素1
案例2:垃圾邮件分类。
人们在生活中不免会收到一些垃圾邮件,这些垃圾邮件的内容可能包括广告推送、钓鱼攻击甚至是木马病毒。据卡巴斯基公司统计,2021年全球邮件中垃圾邮件占比达到45.56%。幸运的是,在一些反垃圾邮件产品的帮助下,真正出现在我们视野中的垃圾邮件可能并没有达到如此夸张的比例,卡巴斯基的统计数据还表明,2021年其反垃圾邮件产品共拦截2.5亿封网络钓鱼邮件和1.5亿个恶意邮件附件。在自动化识别垃圾邮件的过程中,反垃圾邮件软件关心的是某封邮件是否为垃圾邮件,因此在这一案例中的因变量Y就是“是否为垃圾邮件”,这显然是一个0-1型数据。那么如何识别垃圾邮件呢?软件需要收集一系列可能与因变量Y相关的X。图4.2.5中展示了一些可能的影响因素X,其中包括:邮件标题、发件地址、发件人名称、邮件正文、是否携带附件以及附件格式等。通过建立Y和这些X的相关关系,软件就可以预测该邮件是否为垃圾邮件,接着进行拦截,从而减小用户遭受钓鱼攻击等网络诈骗的可能性。
图4.2.5 垃圾邮件影响因素示例
案例3:网购商品推荐。
网购已逐渐成为人们日常消费的重要方式之一。据相关数据统计,截止至2021年6月,我国的网络购物用户规模已达到8.12亿。而在完整的网购体验中,用户难以避免地会接收到平台的商品推荐信息。以淘宝APP为例,当用户打开淘宝应用进入首页时,就会看到一系列的商品推荐信息,如图4.2.6所示。而当用户发生浏览商品、查看订单或是进行收货等行为时,商品推荐也会见缝插针地展示在页面中。在商品推荐的过程中,平台的最终目标是达成交易,因此平台关心的是用户是否购买推荐商品,所以该案例中的因变量Y就是“是否购买”,这显然是一个0-1型数据。为达到精准推荐的目的,平台还会收集一系列可能与因变量Y相关的X,例如X可能是用户的历史浏览记录、搜索记录、购买记录以及点击记录等。通过建立Y和这些X的相关关系,预测用户是否购买该商品,从而提升推荐商品的购买率。
图4.2.6 淘宝APP商品推荐页面示例
第三式:定序回归
和前两种回归模型不同,定序回归的主要特征是:因变量必须为定序数据。那么什么是定序数据呢?定序数据就是关乎顺序的数据,但是数据本身又没有具体的数值意义。例如在豆瓣平台中,用户可以对各类影视作品进行打分。分数分为5个等级:一颗星表示很差,两颗星表示较差,三颗星表示还行,四颗星表示推荐,五颗星表示力荐,这就是典型的定序数据。具体而言这样的数据有什么特点呢?第一,定序数据没有数量意义,不能做任何代数运算。例如一颗星(很差)和两颗星(较差)并不能进行求和,二者即使相加也并不表示三颗星(还行)。第二,定序数据的顺序很重要。例如一颗星(很差)、两颗星(较差)和三颗星(还行)放在一起就自然有着“评价从低到高”的顺序。这个顺序很重要,定序数据正因此得名。值得注意的是,由于定序数据没有具体的数量意义。因此我们不能确信:一颗星(很差)和两颗星(较差)之间的差距,是否正好等于四颗星(推荐)和五颗星(力荐)之间的差距。事实上,这些取值之间的间距到底是多少,人们很难说清楚,全靠个人的主观感知。定序型数据在我们的生活中也有很多的应用场景。请看以下案例。
案例1:市场调研。
市场调研是企业了解客户群体、进行营销决策而采用的重要步骤之一。据统计,2021年中国商业领域调研咨询的市场规模达到175.8亿元。除了与咨询公司合作开展市场调研外,一些体量较大的餐饮企业也会选择在自有渠道上展开调研。例如国际连锁餐饮企业麦当劳就在2017年发布了微信小程序,用于采集消费者的用餐体验反馈。图4.2.7展示了一份经典的市场调研问卷,其中展示的问题包含了消费体验评分、门店表现评分和向他人推荐的程度三项。除此之外,市场调研中的常见问题还包括:复购可能性评级、单个产品评分等等。在这些问题中,企业关注的正是各个问题最终的评级结果,因此用户的满意度等级就是核心的业务指标,也就是因变量Y。由于满意度等级评分关乎顺序,但无具体数值意义,因此是一个定序型数据。为了找到影响用户满意度Y的因素,企业还会尽可能收集可能与之相关的X,例如:该用户的消费历史、上一次消费体验、个人喜好、各类促销活动等。通过建立Y和这些X的相关关系,可以找到显著影响用户满意度的因素,并针对性地做出营销决策,帮助企业赢得更多市场份额。
图4.2.7 市场调研问卷示例
案例2:信用评级。
信用评级是对评级对象履约能力和意愿的总体评价,其目的在于表征评级对象违约风险的大小,减少用户违约给企业带来的损失。银行信用卡业务是信用评级的重要应用领域。据央行统计,截至2021年9月,全国信用卡逾期半年未偿信贷总额达到818.04 亿元。因此对于信用卡业务而言,对用户进行信用评级十分重要。在信用评级的过程中,银行关心的是用户违约风险,而违约风险是由违约行为的严重程度决定的。因此该案例中用户违约行为的严重程度就是因变量Y。例如,Y=0可以表示无违约风险(未逾期),Y=1可以表示逾期风险低(逾期不超过一个月),Y=2可以表示逾期风险高(逾期超过一个月)。虽然逾期时长更像是一个连续型数据,但为了管理方便,人们常常将其离散化为上面的离散数据(Y=0, 1, 2)。该数据取值显然有序,但是数量意义不明确,因为逾期一个月以内或一个月以上对银行的影响不甚相同。因此,这是一个定序数据。为了找到影响Y的因素,银行还会尽可能收集可能与之相关的X。俄亥俄州立大学的研究人员就在1999年研究了多种因素X对用户违约严重程度Y的影响。图4.2.8中展示了该研究中考虑的部分影响因素X,其中包括了年度税前收入、年龄、子女数量等等。通过建立Y和这些X的相关关系,可以识别出显著影响用户违约行为的关键因素,并预测用户的违约风险,帮助银行建立信用评级系统,减少信用卡坏账风险。
图4.2.8 用户违约严重程度Y的影响因素示例2
案例3:抑郁症分级。
抑郁症是一种常见的情感障碍疾病。据世界卫生组织统计,截至2021年全世界约有 2.8 亿人患有抑郁症。因此探索可能影响抑郁症发病的因素,对有针对性的降低抑郁症发病率十分重要。例如哈佛大学的团队就曾在2020年研究了日常生活中的106个因素对抑郁症发病的影响。在此过程中,科研团队关心的是实验者的抑郁症分级,而这就是相关研究当中用于描述抑郁症严重程度的因变量Y。一种对抑郁症严重程度进行分级的量表是汉密顿抑郁量表,图4.2.9展示了该表的部分内容。如图所示,该表中大部分项目采用0至4分的5级评分法,少数项目采用0至2分的3级评分法。在此量表中,若总分大于等于24分,则评级为严重抑郁;总分在17至24分之间则判断为一定有抑郁症;总分在7至17分之间则判断为可能有抑郁症;低于7分表示正常。因此在汉密尔顿焦虑量表下,因变量Y可根据抑郁症严重程度分为四级,级与级之间的顺序很重要,但等级无具体数值意义,因此因变量Y是一个定序型数据。用定序数据描述抑郁症的严重程度是粗糙的,因为同级内的病人严重程度又各不相同。那为什么不用更为精细的连续型数据描述呢?答:太难了。不同于很多其它医学指标(例如血压)有客观的测量仪器,抑郁症的测量非常依赖于医生和病人的主观判断。因此无法做到精细测量,只能比较粗糙,而这就产生了定序型数据。通过建立Y和可能影响抑郁症分级的因素X(例如运动、睡眠、社会活动等)的相关关系,可以找到显著影响抑郁症程度的因素,从而帮助降低抑郁症的发病率,提高人们的生活质量。
图4.2.9 汉密顿抑郁量表内容节选3
第四式:计数回归
前面提到,定序数据的一大特点是没有数量意义,不能进行代数运算。在这一点上有一种数据恰恰与之相对,它不仅是非负的整数,而且具有数量意义。这种数据就是1.6节中详细介绍过的计数型数据。计数回归解决的正是因变量为计数型数据的回归问题。因此计数回归的主要特征是:因变量必须为计数型数据。具体到因变量服从分布的不同,计数回归又可以分为泊松回归、负二项回归、零膨胀泊松回归等多种方法,感兴趣的同学可以自行查看相关资料。在我们的生活中计数型的因变量非常普遍。请看以下案例。
案例1:智慧零售。
随着互联网和移动技术的发展,零售业正朝着智慧零售的方向不断发展。据智研咨询整理,2019年我国智慧零售市场规模就达到了1800亿元,并且在实体零售商家中已有84%的商铺开通了线上渠道。图4.2.10中就展示了一种智慧零售门店的数字化框架,可以看到,不管是进店的客流分析,浏览过程中的货架热力图,还是个性化导购等环节都依赖于基于数据的销售管理,这是智慧零售的重要一环。商家希望通过对消费者购物数据的记录,分析什么因素影响着消费者的购买行为。而一种刻画消费者购买行为的方式是计算某商品的周购买次数,这是商家可能关心的核心指标。因此智慧零售案例中因变量Y就是商品的周购买次数。由于周购买次数只能取非负整数,且取值具有数量意义,因此这是一个计数型数据。而影响因变量Y的因素X可能包括历史销量、店铺所在地区、销售日期、是否有促销活动、促销力度等等。通过建立Y和这些X的相关关系,可以预测商品的周销量,帮助识别显著影响销量的因素,调整促销方案,最终提升营业额。
图4.2.10 一种智慧零售门店数字化框架示例
案例2:肺结节检查。
肺癌是我国乃至全世界最常见的恶性肿瘤。根据2015年统计数据,肺癌位居我国恶性肿瘤发病率和病死率首位。发表于某医学杂志的一篇文章也表明,2017年中国因肺癌而死亡的人数达到69.2万人。因此探索可能影响肺部产生疾病的因素,并针对性地进行改善,对于人民健康福祉具有重要意义。而在肺部体检筛查中的重要临床指标之一就是肺部结节数量,这一指标受到医生和科研人员的广泛关注。因此在肺病致病因素探索的过程中,因变量Y可以是肺部结节数量。由于肺部结节数量只能取非负整数,且取值具有数量意义,因此是一个计数型数据。那么影响肺部结节数量的因素X可能包括哪些呢?图4.2.11中展示了包括年龄、吸烟状态、初次吸烟年龄、烟尘暴露史在内的一些可能因素X,这些因素出自2017年发表在《肺癌》(Lung Cancer)杂志上的一篇研究肺部结节影响因素的论文。事实上,该论文中一共考虑了基本特征、吸烟和二手烟、家庭癌症史、职业暴露史、生活习惯等多方面的共30余项因素。通过建立Y和这些X的相关关系,可以找到显著影响肺部结节数量的因素,从而帮助降低肺部疾病乃至肺癌的发病率,保障人民的生命健康。
图4.2.11 肺部结节研究中的部分影响因素4
案例3:生育选择。
我国正处于“低生育率陷阱”中。这一概念是由奥地利学者鲁茨在2005年提出的,他认为当一个国家的生育率低于1.5时便很难扭转生育率下降的趋势。图4.2.12绘制了1970至2020年我国育龄妇女总和生育率的变化。从中可以看到,自2000年以来,我国已经掉入“低生育率陷阱”中。2020年我国育龄妇女总和生育率仅为1.3,即一名妇女在育龄期内平均生育1.3个孩子。同时,育龄妇女的生育意愿也从2017年的1.76个降低至2021年的1.64个。影响生育率下降的核心因素是什么?如果能解答这一问题,就可以有针对性的调整并尝试逃脱低生育率陷阱。在解答这一问题的过程中人们关注的是育龄妇女的生育数量,因此因变量Y就是生育数量。由于生育数量只能取非负整数,且取值具有数量意义,因此是一个计数型数据。而影响因变量Y的因素X可能包括家庭经济状况、教育程度、夫妻年龄等等。通过建立Y和这些X的相关关系,可以帮助识别显著影响育龄妇女生育数量的因素,帮助挽救当前的低生育率危机。
图4.2.12 1970至2020年我国育龄妇女总和生育率变化 5
第五式:生存回归
生存回归是生存数据回归的简称。而生存数据回归的主要特征是:因变量必须为生存数据。那什么是生存数据呢?生存数据刻画的是一个现象或个体,它的存续生存时间。为了计算生存的时间,首先需要清晰定义两个概念:出生和死亡。如果将人的自然出生定义为出生,将人的自然死亡定义为死亡,那么生存时间就是一个人的寿命。这就是一个典型的生存数据,这样的数据对于寿险精算等行业非常重要。类似地,如果将一个电子产品(例如:灯泡)的第一次使用定义为出生,将最后报废定义为死亡,那么生存时间就是产品的使用寿命。如果将一个消费者在某商铺注册会员定义为出生,将最后一次消费定义为死亡,那么生存时间就是一个消费者的生命周期。如果将一个企业的工商注册定义为出生,将破产注销定义为死亡,那么生存时间就是企业的生命周期。请注意,上面的例子中展示的生存时间除了是生存数据,同时也是一些连续型的数据。既然生存时间本质上是连续型数据,那么能否使用线性回归对生存数据进行建模呢?答:可以,但需要建立在生存数据被精确观察到的前提下。这就要求对每一个样本个体而言,其出生时间和死亡时间都得被准确观测到。但遗憾的是,很多情况下生存数据并没有被精确观察到。为什么会存在生存数据未被精确观察的情况呢?以人的寿命为例,假设人们关心一个人的经济水平(X)是否影响他的寿命(因变量Y),为此可能需要调查一些人的经济水平和寿命。但困难在于:对于活着的个体是无法获得其精确寿命的。对于一个仍然存活的个体,其出生时间是明确的,但是他的死亡日期并不确定,因为该个体还健在。以一位90岁的老人为例,我们能够确定的是,他的寿命一定大于90,但是具体大多少并不确定。因此在数据上通常将该老人的Y记作“90+”,其中“+”表明他的真实寿命会比90大,但是具体大多少仍是不清楚的。这种数据也叫做截断数据(Censored Data)。真实的生存数据,常常存在大量的被截断现象。在这种情况下,普通线性回归是束手无策的,这就给生存回归方法的发展提供了土壤。在我们的生活中,因变量为生存数据的情形非常普遍。请看以下案例。
案例1:寿险精算。
人寿保险是转嫁个人意外风险的重要方式。据中国银行保险监督管理委员会统计,2020年全国寿险保费收入达到24万亿元。在庞大的寿险保费规模的背景下,寿险保费的计算依赖于不同年龄人群死亡率的估计。因此我国银保监会每十年都会发布一次《中国人寿保险业经验生命表》,表中包含了不同年龄的死亡率,这是精算师在计算寿险产品保费时的重要参考依据。因此,尽可能正确地估计人群寿命就变得十分重要。在这一过程中,因变量Y就是人群的寿命。由于人群寿命正是人群存续生存的时间,因此这是一个生存数据。而影响因变量Y的因素X非常广泛,可能包括身体基础指标、生活习惯、性别、经济水平、所在地域医疗保障能力等等。以生活习惯这类影响因素为例,图4.2.13中就展示了各项不同生活习惯下样本寿命的模拟数据。通过建立Y和这些X的相关关系,可以预测人群的寿命,从而预测各年龄层的死亡率,为寿险保费的确定提供依据。
图4.2.13 不同影响因素下人群寿命的模拟数据
案例2:用户流失管理。
在一些未形成巨头垄断的互联网赛道上,通常会出现多家企业群雄混战的情况。以生鲜电商赛道为例,据网经社统计,2021年生鲜电商的交易规模达4658.1亿元,该年内生鲜电商融资总额超80亿元,有超过30家知名企业参与到生鲜电商的激烈竞争中。各生鲜电商APP的相互竞争不可避免地会导致用户从原有平台流失,转而使用竞品。据贝恩咨询公司的研究表明,减少5%的客户流失率将会使公司利润增加 25% 到 95%。因此为了赢得竞争优势,提升市场份额,做好用户流失管理十分重要。在这一过程中,企业关心的因变量Y就是用户寿命。这里的用户寿命指的是从用户第一次注册使用该平台到最终停止使用之间的时间,显然用户寿命是一个生存数据。那么用户寿命可能受哪些因素影响呢?图4.2.14中展示了各种不同因素下用户寿命的模拟数据,其中涉及的影响因素X包括顾客身份信息、顾客年龄、最大消费金额、最大购买间隔天数、特价商品平均占比等等。通过建立Y和这些X的相关关系,可以预测用户在平台的使用寿命,并识别显著影响用户寿命的因素,从而帮助平台更好地留存用户,提升市场份额。
图4.2.14 不同影响因素下用户寿命的模拟数据
案例3:抗肿瘤药物临床实验。
癌症一直是严重危害人类健康的疾病种类。据世界卫生组织统计,2020年中国新发癌症患者数量为457万,癌症死亡病例300万例。正是因为癌症的巨大危害和较大的发病数量,抗肿瘤药物正成为新药研发的重点之一。仅2020年上半年就有256项抗肿瘤新药进行了临床实验登记,占同时间段内所有公示新药的52.9%。而在抗肿瘤新药的临床试验中,人们关心的是该新药的效果和安全性。一种衡量新药效果的重要临床指标是总生存期(Overall Survival),即被试者从实验分组开始,直至死亡或者最后一次随访的时间。显然,总生存期是一个生存数据,并且很大概率会出现截断现象。在抗肿瘤新药的临床试验中,人们关心的一个因变量Y就是总生存期。而影响因变量Y的因素X可能包括抗肿瘤药物的作用、年龄、性别、病史等等。通过建立Y和这些X的相关关系,可以判断抗肿瘤药物是否显著改善了患者的生存状况,从而为新药上市审批提供依据。除此之外,研究显著影响肿瘤患者总生存期Y的影响因素X的价值还在于:评估患者经过某治疗后的效果,帮助医生决定何时开始、停止或改变治疗,从而为患者量身定制合适的治疗方案。例如图4.2.15中就展示了不同治疗药物和身体条件的受试者的总生存期的模拟数据。其中影响因素X包括了治疗药物、性别、年龄、诊断距离治疗的时间、是否发生脑转移共五个因素。
图4.2.15 不同影响因素下总生存期的模拟数据
通过以上大量案例的介绍可以发现,当研究中的因变量属于不同的数据类型时,应该采用不同的回归模型进行研究。以上我们就完成了对回归分析理论框架的介绍。接下来我们要进入更具体的技术细节,探讨回归分析的理论与应用。为此,我们将从最经典的线性回归模型出发。
1 Booth, M., Beral, V., & Smith, P. Risk Factors for Ovarian Cancer: A Case-Control Study. British Journal of Cancer, 1989, 60(4): 592-598.
2 Dunn, L. F., Kim, T. H. Empirical Investigation of Credit Card Default. Ohio State University, Department of Economics, Working Papers, 1999.
3 汤毓华, 张明园. 汉密顿抑郁量表(HAMD). 上海精神医学, 1984(2).
4 He, Y. T., Zhang, Y. C., Shi, G. F., et al. Risk Factors for Pulmonary Nodules in North China: A Prospective Cohort Study. Lung Cancer, 2018, 120: 122-129.
5 Yang, S., Jiang, Q., Sánchez-Barricarte, J. China’s Fertility Change: An Analysis with Multiple Measures. Population Health Metrics, 2022, 20(1): 1-14.
往期推荐