【万字干货长文】HealthX Talk #003 杜学纬 医疗保险中的数据科学
在数字化的大浪潮中,传统医疗保险行业如何与时俱进、积极拥抱数字化转型?人工智能和大数据科学在医疗保险行业中又有哪些具体的应用?而随着数字化和智能算法的普及,医疗行业中的隐私问题又对人工智能的落地构成了哪些特殊的挑战?怀揣着对于这些问题的好奇,2021年3月21日我们特邀纽约Prudential Financial保德信金融集团高级数据科学家、加州伯克利和哥伦比亚大学校友杜学纬做客HealthX Club,一起畅谈数据科学在医疗保险行业中的创新与应用。同时来自中美保险行业的专家也一起进行了精彩的讨论,共同探索医疗保险中的机遇与发展。
本文总结了3月21日第三期HealthX Talk中杜学纬老师的分享,和来自科技保险从业朋友们的相关讨论。我们欢迎对数据科学在医疗保险中的应用感兴趣的朋友关注HealthX Club公众号,并联系俱乐部小助手入群讨论,共同探索后疫情时代中数字化医疗保险的机遇与发展!
主讲嘉宾介绍
杜学纬老师先后于加州大学伯克利分校,纽约哥伦比亚大学取得统计学学士学位及数据科学硕士学位。学纬老师现在就职的美国保德信金融集团,是一个老牌金融集团,成立于1875年,是美国最大的金融机构之一,该集团旗下的保德信保险公司,是美国最大的人寿保险公司之一。学纬老师作为高级数据科学家(Senior Data Scientist)参与了集团中几大举足轻重的数据科学保险项目,其中包括Accelerated Underwriting Project 加速保单签署项目,Risk Assessment Mortality Model (RAMM)伤亡风险自动评估模型等。目前学纬老师在智能健康保险数据模型方面拥有非常丰富的实战经验。
数据科学在保险领域的应用主题分享
学纬老师首先介绍了保险行业为什么需要数据科学,寿险的相关基本概念,然后围绕自己参与的一个项目 Group Insurance Accelerated Underwriting Project来介绍数据科学在医疗保险中的具体应用,最后介绍了数据科学在其他保险行业中的应用。
1. 为什么要在保险公司里面为什么要有数据科学家,以及为什么我们需要用数据科学?
首先数据科学是一个统计和计算机的交叉型的领域,所以它是离不开数据的,而保险公司特别是美国的保险公司,拥有大量的数据,因此我个人认为数据科学家在保险公司可以用这些数据来帮助保险公司达成一些目的,主要是三个方面。
首先是成本的降低,比如应用于Fraud Detection 欺诈检测。也就是有一些人买了保险以后会申请理赔,但其实是没有资格获得这些理赔的。那么我们可以用数据科学的手段来分析这些数据,来降低没有资格获赔的人来申请理赔的概率,以帮助保险公司减低成本。第二个方面是underwriting、核保,保险公司在核保过程中,成本是很高的。而我们其实可以通过找出一些数据里的统计学规律,来帮助保险公司降低核保成本。这个我会着重介绍。
第二个目的是帮助保险公司增加收入。一方面是cross-selling、交叉销售,比如说保险公司在某些领域已经获得了一些客户,比如说一些寿险的客户,这个时候保险科技公司的数据科学家可以通过对数据的分析来发现这些客户还有没有什么其他方面的需求, 进而来给他们推销一些他们有可能买的其他产品。第二个方面就是保险公司需要做广告。数据科学家可以通过对现在已有的客户的分析来决定通过什么方式,在什么时间做这些广告,能够更好的reach到我们潜在的客户。
第三点是增加客户满意度,很多保险公司会拥有自己的call center、电话客服中心,但是美国很多的电话客服可能你打一个电话打了40-50分钟才能够帮你解决一件事情。这个时候数据科学家可以通过分析这些电话,看看有没有什么自动化的方式可以提高这些电话客服的效率,使得每一件事情可以在10分钟以内解决。第二个是刚才说过的一个underwriting,核保或承保。也就是说我们整个承保的过程,目前在保险公司是一个非常漫长的过程,可能会牵涉到上几十天甚至几个月。那么这个时候数据科学家就可以通过对数据的分析来要加快整个承保的过程,使得用户可以在一两分钟内就可以直接在网上自动买到保险,这一点我也会着重的介绍。
2. 人寿保险和保险公司相关背景知识
首先保险行业主要分为四大部分,
第一个部分是life insurance寿险,那么寿险的意思其实就是这个保险只有当人死亡了的时候才赔付。这个是比较传统的寿险的一个定义。
第二个部分是health insurance,医保,医疗保险或者美国这边其实叫健康保险,主要是跟医疗的一些服务相关,比如说去看病什么之类,还有一些配药之类的。
第三个部分是p&c property and casualty,中文是财产保险,比如说像我们买的车险,还有房子的保险都是财产保险。
最后一部分是reinsurance,再保险的客户主要是保险公司,因为保险公司也需要分摊一些系统性的风险,所以他们会向再保险公司继续购买保险产品。那么我的介绍主要会是跟寿险相关,当然我知道我们的力澜老师她他是在保险行业,我们的话也会进入一个在保险行业的,也可以进入一个在保险行业的讨论。(HealthX Club会有一期再保险行业的活动,敬请期待!)
那么我的介绍主要会是跟寿险相关,在寿险下面又分为 individual life or group life,也就是个人的寿险和集团的寿险。这个的区别主要是个人寿险是我们每一个人直接向保险公司买的保险,而集团的寿险是我们通过雇主向保险公司买的保险。这个区别主要是发生在美国,因为在美国不同的雇主会为自己的员工给我们提供一些福利,而这个福利里面有一部分就是寿险。比如大多数金融方面的雇主会给员工提供一倍工资的福利,也就是说在未来的一年内,如果员工死亡的话,它可以从保险公司那边获得一倍工资的保障。
那么那么大家知道一倍工资对于绝大多数人来说可能是不够的,他们可能需要更多的保障。这个时候就有basic和optional life insurance的区别, basic life insurance也就是雇主直接免费发放给员工的保险。但如果员工想要额外购买保险的话,他们买的东西就叫optional life insurance。但是员工如果想要额外购买保险,保险公司不一定承保,为什么?因为有一些员工他可能有非常严重的疾病,比如说他们可能是刚刚被诊断出了癌症晚期,医生预测他在未来的两三年内会死亡。这种情况下,保险公司是不会承保。如果保险公司承保这种人,它的成本可能也会增加,它的保费肯定会增加。那么那些健康的人就不公平。所以这就是为什么保险公司需要一个underwriting的步骤,也就是核保或者承保的步骤。这个步骤主要是为了做adverse selection,筛选出那些健康的最健康的人,然后把那些不健康的人剔除在外。
整个underwriting的步骤是由underwriter也就是核保员来完成。所以核保员的日常工作就是,当有人来申请购买保险,他们需要通过他们自己的经验和专业知识来决定是否给这个人保险。
3. 集体保险加速承保项目的动机与背景
我首先介绍一下,如果一个人通过雇主想要买保险,它会经过哪些步骤?首先我们有一个概念叫GI limit。Guaranteed Issue limit。在美国工作过的朋友可能知道这一点,就是在每年 annual enrollment,也就是每年10月11月的时候,你需要为第二年选择自己的 health and life benefit。这个时候你就可以开始为你的下一年购买寿险了。那么很多公司会有GI limit,比如很多公司会有三倍工资的GI limit,意思是什么?如果你觉得公司免费给你的保险不够,你还可以额外买,并且你额外买三倍以下工资的保险的话,保险公司一定承包,保险公司不会拒绝你,即使你得了癌症,患了心脏病之类的,保险公司也不会拒绝。
那么这一个guaranteed issue limit,主要是需要雇主和保险公司谈妥了,guaranteed issue limit越高,你雇主需要付给保险公司的钱越高,那么也就是说雇主谈的保险对于员工来说其实是最好的。但是如果你觉得三倍工资的概率还不够,你还要更多。这个时候你就需要经过我们叫medical underwriting,医疗核保,我们保险公司需要确定你是否有资格购买保险。
对于我们来说,医疗方面的核保首先需要经过一个短问卷 short form,也就是说购买保险的人需要填一张问卷,问卷只有两个问题,一个问题是你现在有没有任何的不舒服,有没有任何的疾病。第二个问题是你在过去的5年内,有没有患有以下,非常重的疾病,比如胸痛、心脏病、高血压、糖尿病、肿瘤等等。如果你选两个都不是的话,就可以直接获得保险。但是如果你只要有一项选的是Yes的话,那么你就要你就要去填一张叫长表,long form。那么我这边说一下,这个地方有些人可能会说谎对吧?他自己明明患有什么疾病,但是却全部填写 No,No,为了拿到保险。如果被保险公司发现,保险公司是可以不理赔的,所以这点就确定了我们的绝大多数人不会在问卷表上说谎。长表就非常具体,他有十几个问题,会问到你有没有做过任何手术?有没有因此住院,以及他会问到你有没有各种疾病,你都要一个个的填yes或者no,你一旦选了某一个是yes,你还要详细的介绍你的病情。
那么填完长表以后,我们就会进入一个叫manual review的过程,也就是保险的审核员或核保员,他会来看你的短表和长表,然后决定是否是否直接把你通过了,还是说还需要更多的调查。那么更多的调查这边主要是三部分,APS (attend physician study)就是说他觉得需要把你送到医生那边,从医生那边去拿一个证明,医生会在证明上写你患有什么病,病情怎么样。然后你把它拿回来提交给保险公司。第二个Blood Test,就是需要做一个抽血检查,你可能要到一个 检测机构去做检查。第三个Medical Exam,就是有可能他会把你送到一个体检中心去做一个体检,然后医生会出具一个体检报告。收集完这些信息以后,保险公司的审核员就可以通过你的这些信息来进一步决定是否需要给你保险。
大家可以看到整个过程是一个非常漫长的过程,那么就产生了三个问题,
首先客户满意度非常的低,因为走完这个流程可能时间非常的长,并且你需要做这样那样很多事情。
第二个,这个流程对于保险公司本身来说是一个非常高成本的流程,因为大家知道美国这边的医疗成本非常的贵,可能他把你送去看个医生就是几百美元,而这个钱你还没有买保险,保险公司就要把这个钱先付出去。
第三部分是我们可能会有一些客户丢失,因为有些人觉得这个过程这么麻烦,我不想买保险,他就在某一个过程中可能就可能说我就不买了,我就withdraw了。这个时候我们本来能收到的保费可能现在就收不到。
所以为了解决这个问题,我们我们的数据科学部门就想了一个方法,来做了一个机器学习的模型来来解决这个问题,那方法是什么呢?我们在短表和长表之间可以加一个机器学习的模型,然后机器学习模型的目的就是可以把一些填完单表的人里面最有可能最不危险的或者说最健康的人把它选出来,把它们自动审核,在一两分钟内确保他们就能拿到保险,那么剩下的人我们还会做其他的处理。所以有了这个模型以后,我们可以看到这个模型,其实只要十几秒钟就能跑完,然后另外加上后面的出保单的过程,整个过程可以在几分钟之内完成,所以我们就解决了刚才所说的客户满意度低的问题。其次,由于这个模型是在两分钟内解决问题,我们就根本不需要把这些人送去医生那边了。那么对于保险公司来说成本也减少,最后由于大家填完单以后会自动有模型介入,所以大家根本没有机会来 withdraw,根本没有机会退出整个流程。所以这样的话,他们一旦被通过以后,就可以拿到他们的保费。
4. 集体保险加速承保项目的数据与模型
我们数据科学部门会收集很多数据。然后会通过这些历史的数据来训练一个统计预测的模型,或者是一个机器学习的模型,然后机器学习的模型会干一些事情。这边我们会收集的数据主要首先是公司内部的数据,主要是有年龄、性别,还有一些其他跟这些客户有关的数据,但这些数据是不够的,它不足于让我们知道哪些人是非常健康,哪些人没有那么健康,所以我们需要问第三方去买数据。我们问第三方买的数据是医疗医药相关的数据,那么这些我们买来的数据可以帮助我们模型来分辨出这些人哪些是(承保)安全的,哪些是不安全。最后我们还会有一些其他方面的数据,这个方面的数据主要是来自一些政府机构,那么这些数据把它们混合起来,我们就可以用来训练一个机器学习的模型。
那么机器学习的模型训练好以后,它就可以把人群分成两部分,一部分人我们可以给他十几秒的时间自动审批掉,这些模型就自动把他们审批掉。那么没有能够自动审批到的人,他还可以分成两部分,一部分人我们让他继续走刚才非常冗长的流程,使得他们能够被保险审核员看到,并且他们仍然有机会被保险审核员通过。那么还有一部分人是模型觉得非常的危险,这些人有很大的可能性会被保险审核员拒绝掉的。这些人我们模型是不会自动去拒绝他们的,我们仍然会把他们传给保险审核员,由保险审核员看一遍以后,人工把他们拒绝掉。主要是一些政府的规定,在美国这边保险申请来了之后,我们是不允许自动拒绝保险的。
模型主要介绍一下监督学习算法(supervised learning),这里的x1,x2, x3可以是年龄、性别、第三方医疗数据,每一行就是每一个历史上的保险申请者。Y是指在历史上这个人被保险审核员给通过了还是拒绝了。那么有监督的机器学习模型干的事情就是找出如何找出一个映射,这个映射是可以把这边我们四维的X映射到一维的Y上的映射。这个映射其实有一个非常简单的方法可以把它找出来,那就是conditional probability。
敲黑板来干货了!
我们看有哪些人,比如我们把那些x1=1,x2=2,x3=0, x4=2的人全部找出来。在这边我们找出来两行, 然后我们去看他Y上的分布,有这些“1202”特征的人,有多少人历史上被保险审核员通过了,我们看到有一个人。有多少人被保险审核员拒绝了,1个人,那么这个时候我们就可以说下一次如果我再看到一个1202的人,他对保险审核员通过几率有多少?50%,我们再举一个例子,我们再看一下0110的人,x1=0,x2=1,x3=1,x4=0,0110的人,我们选出来只有一行,它被保险审历史上被保险审核员拒绝的几率有多少呢?100%,因为就他一行并且他被拒绝,所以我们说如果下一次我们再看到一个0110的人,他被保险审核员拒绝的几率是多少?100%。所以我们预测它会不会保证审核员拒绝掉。那么当然大家肯定看到我们数据不可能只有三行,这边三行是一个非常极端的假设,因为我们这边写不了更多的数据,但是如果我们假如说有更多的数据,我们就会非常准确的知道每一种排列组合的人,这种特质的人,它被保险审核员拒绝的几率,比如说我们说我们可以找到1202的人有100个人,100个人里面的95个人,历史上被保险审核员通过,5个人被保险审判员拒绝。这个时候下次在看到1202的人,他被保险审核员通过几率是多少?95%。我们就会预测我们就把这个人审核通过,大概就是这么一个逻辑。
要做到这样,我们就需要有大量的数据,为什么?假如说我们现在一共有6列数据,然后每列数据有10个可能性,就不是0123这种,0123456789,有一共10个可能性,这时候我们需要有多少数据才能做到刚才所说的事情?我们需要10的6次方,一共有10的6次方个排列组合,对于排列组合里面的每一个我们需要100个数据点,所以一共需要1亿行的数据,10的6次方×100,一亿行的数据才能够做到刚才那个效果。数据肯定没有那么多,所以所以这就是为什么我们我们需要用一些算法,而不能直接用conditional probability来解决,来算来得出 X到y的映射。那么机器学习的算法有很多种,这些都是可以用的。并且我在做项目的时候,我也用了许里面的许多模型,具体这些模型是什么意思,我就不不仔细介绍了,大家如果对机器学习感兴趣的话,可以去深入研究。
5. 集体保险加速承保项目中的挑战
我们在执行这个项目的时候也遇到了很多挑战,挑战来自多个方面,
一是关于数据的脱敏,因为我们的数据很多是从第三方购买的数据,我们在购买数据的时候就牵涉到一个数据脱敏,数据脱敏的意思是说我们可以从数据里面把人identify出来了,能够确定这个数据来自谁,比如说名字,还有账号,这些东西全部都需要给它去除此除了这个以外,任何的一个combination,任何的一个排列组合里面我们要保证至少有5行数据,比如说1202的人,我们要保证模型至少用了5个人,这样的话是我们数据拿回来以后,我们没法知道1202具体是谁,我们不能把这种排列组合再来反推回这个人是谁,这个数据脱敏是一个非常痛苦的过程,它会造成大量的数据流失,为什么?你想有我们说了,如果一共6列,每列10个 category的话,我们就有10的6次方100万种排列组合,然后假设每10个category都是uniform distributed,平均分布的。即使在这种理想情况下,我们仍然需要10的6次方×5,也就是500万行数据才能够达到数据脱敏所要求的,我们是没有办法达到这样。所以我们就不得不删除很多列,并且把把每一列里面的数据的granularity给他变得非常的非常的粗糙。比如说本来有10个category的,我们可能要把它并成3个category,所以这就造成了大量的数据丢失,这是我们碰到的一个非常困难的情况。
第二个困难的情况是关于数据的privacy,也就是隐私,这个主要是2018年加州那边有这个数据的隐私法案,以及1996年的时候,关于健康数据方面克林顿当时有一个HIPPA的 regulation,那么这点对于我们在美国的数据就造成了比较大的影响,我们需要跟我们的compliance去协调,以保证我们所用的数据符合这些方案所规定的。当然大家也知道欧洲2016年的时候出了一个我觉得是史上最严格的一个数据保护方案,这点也对于我们欧洲的数据是一个非常大的挑战。但是这些数据保护法案其实他们的初衷是好的,也主要是规定了我们这些大公司不应该去滥用数据。这边我介绍一个例子,在加拿大的魁北克2009年的时候发生了这么一件事情,有一个人叫Natalie Blanchard,他患了非常严重的抑郁症,然后他没有办法工作了,所以他向保险公司申请了残疾险的理赔,所以保险公司每个月会给他打钱来支持他的生活。2009年那一天,他去银行取钱的时候发现保险公司没给他钱,后来发现是因为保险公司把它的保险给停了,原因是因为保险公司去他的Facebook账号上看,发现他居然在笑,所以就把他的保险给拒绝了。所以这边就产生了一个很严重的问题,患有抑郁症的人可以在 Facebook上面笑吗?这个问题是非常值得探讨。其次另一个非常值得探讨的问题是保险公司有没有权利去Facebook上面挖掘挖掘这些人的数据来决定是否要把他的保险停了,这个是从客户的角度来考虑这个问题。我们想问我保险公司或者我们国内的这些科技公司,所拿到所收集的数据到底是谁拥有的?我们每天都在产生大量的数据,我们微信有好友共享很多的数据,这些数据到底是谁拥有、这些数据的主人到底是我们自己呢?还是是归这些科技和保险公司拥有的,还是这些数据应该是公众的数据,这也是一个非常值得探讨的问题。而对这些问题的探讨会直接影响我们数据科学家如何处理数据。
第三个我们碰到的挑战是关于关于机器学习这些算法是否是公平的,我们希望我们的模型是公平的,但它是否真的公平。那么这些机器学习的算法公平是什么意思?就是说我们对于人或者说对于不同组的人,treatment应该是一样的。我们所做的模型不能产生任何偏见,但这个怎么来衡量?怎么来量化?学界有很多不同的方法来量化,比如说这边我举三个例子,当然我不会展开讲,如果大家感兴趣的话,我有另外一个PPT可以跟大家分享。这边三个例子,Statistical Parity, Equalized Odds, Within-group weak calibration。这三个都是在2017年的NeuralIPS上面被大家广泛讨论的三种衡量机器学习算法公平性的方法,但这三种算法不一样,对吧?我们到底用哪一种?这个是值得探讨的一个问题。
第四我们数据科学部门遇到的挑战是关于关于我们的模型所产生的社会后果,怎么样去衡量以及怎么样去解决。因为我们的模型所做的模型,他的目的和人工的underwriter,他们所干的事情是一样的,所以势必会有一天我们和他们产生直接的冲突,也就是说如果我们的模型被应用的话,这些有些人可能会失业,那后果谁来承担?
6.数据科学在保险行业中的其他应用
第一数据科学可以做一些更加个性化的定价,我举两个例子,首先一是在车险,我们可以在车子上面给它安装一个传感器,这个传感器它可以检测我们的驾驶习惯。如果是一个 驾驶非常平稳的,不踩急刹车的不超速的人,是不是保险公司就可以给这种模范驾驶员降低保费?但是对那些喜欢飙车的,喜欢晚上凌晨三四点钟开车的,喜欢踩急刹车的人就给他增加保费。以此来吸引这些模范驾驶员,以更低的价格购买保费。第二种应用是在寿险和健康险里面,我们有一个在美国这边有个东西叫3rd degree transactional data, 比如说我们刷一张信用卡,比如说American Express,他和某个商户比如说Walgreens有合作,他就可以刷信用卡的时候不止帮你付了钱,他还可以到商户那边把你的bill给拿过来,他可以知道你买了哪些东西。假如说一个人用了信用卡买了一堆垃圾食品,我们就可以说是不是这个人身体不是很健康,或者将来身体不会很健康,这样的话寿险公司和健康险公司就可以采取一些行动,比如说增加保费,或者提醒他购买一些比较健康的东西吃。那么第二个是body sensors,比如戴在手上的也是fitbit,或者说苹果手表,手机,它会检测你每天走路的步数和你平时做运动,走了步数越多的,或者平时喜欢做运动的人,他会更加健康一点。第三点是 Social media也就是刚才我说的,比如说Facebook的数据,是不是说在不考虑隐私的情况下,是不是说我们可以去搜集一些 social media上发的数据,来判断一个人他的无论是身体健康还是心理健康情况到底是怎么样?
第二是Call center optimization。如果我们可以对客服部门所那边的数据做一些sentiment analysis,情感分析,来来判断客户的满意度,然后来寻找有哪些方面可以帮助提高客户的满意度。还有是很多保险公司,包括银行都在做的就是chatbot,聊天机器人。chatbot所干的事情就是一个人打电话进来,或者一个人通过网页的聊天进来,这个机器人可以帮助他自动回答一些问题,以减少人工成本。其次,数学科学家可以调取电话中心的数据,并和其他部门的数据进行一个整合。然后通过这些数据的merge,然后整合来找到一些insights,然后来帮助训练电话客服那边的一些流程。
最后一个我刚刚说过的是fraud detection就是有一些没有资格购买保险的人,他假装自己有资格购买保险,数据科学家可以通过数据的分析来找出这些人,并且帮保险公司减低成本。
部分精彩圆桌讨论与自由问答
硅谷慕尼黑再保险创新中心黄力澜同学介绍了Munich Re的一些情况:我们公司做的是再保险行业,再保险主要是给保险公司再安装一个保险,来分担保险公司的风险。Munich Re也是个老牌的公司,成立于1880年,100多年历史,总部在慕尼黑。现在我们的服务中,有一部分主要的业务是再保险,还有一部分业务在新兴的保险这一块,再保险是比如说寿险,还有财产险,这是两块传统的业务,新兴的业务是一个 b2b的新兴保险的,比如说给自然灾害的保险,台风或者是火灾、森林大火,或者是比如说卫星发射这种非常高风险的事情,我们公司因为是再保险公司可以给这些高风险的业务来提供保险。(之后HealthX Club会安排一期活动专门请黄同学来分享)
友邦保险陆老师:我因为正好是在保险这个行业的,属于一线的营销这样一个岗位,所以对于刚刚的这样一个数去在管理中的应用的一个分享,其实还是让我学习蛮多的,因为这个是属于我们公司运营后台的一些工作,我只是补充一点,就是刚刚学纬老师提到的核保,会给出相应的一些结果,其实从核保的角度来讲,可能有些不是很健康的这样一个人员,他并不是说把他剔除掉,而把这些群体进行ABCD这样一个分类,比如说如果说他划到a类,它对应的可能是一个这样的核保结果,如果是划到b类,它是另一个可能的核保结果。其实核保主要的目的是防止逆选者,就是我生病了,然后我来做这样一个投保,所以这块就涉及到如实告知的问题。
HealthX Club创始人周介立同学:谢谢学纬介绍这么多干货,我看到刚刚介绍了集体保险加速承保项目中的很多机器学习模型,有线性模型、决策树、neural networks,PGM,而对于不同行业,对模型的要求也不一样,比如看precision、recall、可解释程度、模型复杂度,我很好奇集体保险加速承保项目中什么是选择模型最重要的指标?杜学纬:我们会考虑分类模型常用的metrics,比如AUROC,precision,recall,我们也会考虑模型的可解释性,没办法解释的模型我们会剔除。另外False Positive非常重要,就是本来不应该拿到保险的人模型给approve了,这会带来很大的损失。所以对于我们,False Positive的重要程度大于False Negative。还有就是我们会做Cost Benefit Analysis,计算衡量每一个模型产生的经济后果,只有算上variance我们模型的经济价值是正的我们才会通过。最后和其他行业不一样,我们所有的模型都需要精算师审核通过才能进入production system。
HealthX Club创始人Cynthia同学:
刚才我注意到学纬提到了一个很重要的问题,就是在我们进行分析的过程中,很重要的一个需要关注的上游的问题是我们从哪里拿数据,我们怎么样对数据的源头,也就是我们的用户进行一个个人信息的保护,这也是非常重要的一件事情。我也在之前有过这方面的思考:数据科学家希望通过模型进行一个预测,越准确越好,这样可以服务用户,给大家一个最优化的解决方案;但与此同时我们也要考虑到大家是不是愿意把个人信息,涉及到比较隐私的信息愿意分享给我们做分析,这就是刚才学纬提到的 de identification,这个过程也是非常重要的,但同时也会导致一些损失。所以我挺想问学纬,在这种衡量的过程中一般有没有一种标准,在这种标准范围内,我们会尽可能多的用数据;哪种标准是我们现在不能去触及的。
杜学纬:明白。这个问题非常好,其实我们作为数据科学家,我们是执行者,我们不是规则的制定者,所以对于数据科学家来说,我们干的事情是执行规定。这个规定目前来说是对于我刚刚说的,对于每一个combination,每一个排列组合至少要5笔数据才能满足他的脱敏标准,我们就去满足这个标准。但我个人认为规则的制定方面,也需要有数据科学家的参与,但是这是另一方面的事情,也就是我们不会说在这个project中制定一个规制,这个规则应该是在project context之外,已经被制定好。然后我们在执行project时候去执行规矩。
HealthX Club创始人Cynthia同学:对!感谢学纬,确实是,那么我感觉在这个过程中,因为我本身也是做 data scientist,我觉得我们很多情况下我们去考虑用户的pain point,但其实在真正的去做分析的过程中,data scientists我们自己其实也有pain point,这就是涉及到我们想用数据,但数据能不能拿到,包括数据有多问题,然后我们怎么样去把它变成有效的信息,这些也是我们面临的一些挑战。
万字干货长文编写不易。。看到这里给个赞+转发+在看吧,谢谢哈哈😄
以上就是HealthX Club第三期Talk的内容分享。感谢各位专家老师及小伙伴们对俱乐部活动的大力支持!欢迎大家扫描海报上的二维码,进入Talk的后续讨论群,与数据科学医疗保险领域的专家们进行交流。也请大家支持关注HealthX Club公众号,期待更多精彩干货!