查看原文
其他

与经典统计学相比,机器学习的数据处理有哪些不同

Chris 智药邦 2021-04-06
概要
关于经典统计学和机器学习的关系有很多讨论。本文参考相关资料,从推理/预测、假设、操作范围、可解释性等角度,对两者在数据处理方面的不同点进行整理、比较和总结。
01 背景


人工智能(AI)和机器学习(ML)正在生物医学中迅速发展。 

AI/ML技术的进步,加上越来越多的可用数据(例如来自制药行业、实验室、医院、保险公司、可穿戴设备、社交媒体的数据),给生物医学带来了丰富的洞见和许多新的可能性。经典统计学和机器学习都可以用来对这些数据进行处理,然而两者有很多区别。

1 数据处理

02 统计和机器学习的概念


统计作为一个传统领域,已被研究和使用了上千年。广义上讲,统计是数学的一个分支,涉及数据的收集、组织、分析、解释和表示。
机器学习起源于计算机科学,是AI的一个子领域。机器学习可以包括统计方法,它使计算机系统能够从数据中“学习”,揭示复杂的模式。
03 从推理和预测的角度来区分


可以认为,与生物医学相关的研究主要有两个目标,推理和预测。

推理是基于数据创建生物医学过程的数学模型,这样就可以形式化的理解生物过程,或者测试我们关于生物医学系统如何运行的假设。预测的目的是预判未观察到的结果或未来的行为,使我们在不了解潜在机制的情况下,也有可能确定最佳行动方案。

推理和预测都是有价值的,在一个典型的研究项目中,我们既想知道生物医学过程是如何发生的,又想知道接下来会发生什么。

从推理和预测的角度,可以对经典统计学和机器学习作出区分。经典统计学从样本中得出对总体的推理,而机器学习则专注于发现预测模式。    

经典统计学方法长期以来都侧重于推理,这是通过创建和拟合一个具体项目的概率模型来实现的。相比之下,机器学习专注于预测,它使用通用的学习算法,目的是在丰富而笨拙的数据中找到模式。
04 假设方面的差异


经典统计学是数学的一个分支,几乎总是从假设开始,通常假设数据中存在某种结构关系,在假设上运行。如果有足够的数据可用,统计学可以进一步明确地验证假设,并在需要时改进模型。  

机器学习则更具有探索性,主要使用监督和非监督学习来创建问题的预测模型,较少依赖于假设,甚至不需要预先假设变量之间的潜在关系。机器学习算法通常比统计学相应的方法复杂得多,并且需要在迭代训练过程开始之前就做出设计。 

统计学家使用“数据模型”对数据产生的过程作出假设,然而机器学习“算法模型”倾向于忽略数据产生的过程(认为数据是未知的或无趣的,只关注观察到的数据的关系)。

机器学习对数据的假设较少,因此可以应用于不同类型的数据。经典统计学往往需要对数据的关系进行假设,因此在数据类型上有更多的限制。 
05 操作范围的差异


随着变量数量的增加,经典统计学和机器学习的操作范围也有所不同。

经典统计建模是为小规模到中等规模的数据(只有很少的变量和特征)设计的,在这种模式中,模型填充了系统未观察到的方面。然而,随着输入变量的数量和它们之间可能的关联的增加,捕捉这些关系的模型变得更加复杂。 

机器学习可以从数十亿的特征中学习。只需要投入数据,算法便会处理数据并发现模式,然后使用这些模式对新数据集进行预测。并且数据越多,预测的准确性可能更高。在数据的复杂性增加、经典的统计推断难以处理的情况下,机器学习方法(如聚类)就可以用来提取数据中的主要模式,对生物过程做出推理和预测。
06 可解释性的差异


经典统计学中,统计学家更强调p值和一个可靠、易于理解的模型,由于变量较少,因此更容易理解。可解释性是经典统计学对生物医学研究结果进行分析的保证,也是研究和试验结果发布的保证。 

由于有大量的变量,大多数ML是不可解释的,通常不适合用于理解关系(如因果关系)。在仅仅需要预测的情况下,机器学习表现良好。机器学习将算法视为黑盒,只要它能起作用就行。与经典统计学不同,即使在没有精心控制实验设计的情况下收集数据,并且存在复杂的非线性相互作用时,机器学习也是有效的。 

1 经典统计学和机器学习之间的区别
07 共存和互补


关于经典统计学和ML之间的界限是有争议的,在很多情况下,经典统计学和ML会使用类似的方法,因此相互重叠。例如,逻辑回归是机器学习从统计学领域“借用”的一种广泛应用于分类问题的技术。经典统计学和机器学习中的许多方法,在原则上,都可以用于推理和预测。  

推理的合理性通常取决于我们是否认为它足以捕获生物系统的本质,机器学习算法的选择通常取决于过去类似场景下生物系统性能的情况。两者都要求将误差最小化,因此都会使用各种优化策略进行改进。

经典统计学和机器学习是共存的,对两者如何使用的选择应该基于具体的分析问题。推理和预测也是互补的,它们指引我们得出有生物学意义的结论。

参考资料
1.Bzdok D, Altman N,Krzywinski M. Statistics versus machine learning. Nat Methods. 2018 Apr;15(4):233-234. doi:10.1038/nmeth.4642.
2.https://www.iqvia.com/locations/canada/blogs/2020/07/what-machine-learning-offers-the-life-sciences-industry
3.https://www.kdnuggets.com/2016/06/ten-simple-rules-effective-statistical-practice-overview.html

(Chris)

----------- End -----------






历史文章推荐    



临床试验数据共享:挑战和前进之路
虚拟临床试验:挑战和机遇
美国FDA如何监管医疗AI:监管框架和当前获批产品
合作制药时代,虚拟制药公司发展的新契机
近两年AI药物发现领域国内外重要投资:7项上亿美元,21项超千万美元
跨界者在行动:互联网巨头在AI药物发现方面,都做了哪些工作
涉及AI的临床试验的国际指南SPIRIT-AI和CONSORT-AI在顶尖医学杂志发布
AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例
AI辅助药物临床试验受试者招募:几种方式和几个问题
虚实结合的AI药物发现:现场数据生成,模型迭代更新


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存