与经典统计学相比,机器学习的数据处理有哪些不同
AI/ML技术的进步,加上越来越多的可用数据(例如来自制药行业、实验室、医院、保险公司、可穿戴设备、社交媒体的数据),给生物医学带来了丰富的洞见和许多新的可能性。经典统计学和机器学习都可以用来对这些数据进行处理,然而两者有很多区别。
图1 数据处理
推理是基于数据创建生物医学过程的数学模型,这样就可以形式化的理解生物过程,或者测试我们关于生物医学系统如何运行的假设。预测的目的是预判未观察到的结果或未来的行为,使我们在不了解潜在机制的情况下,也有可能确定最佳行动方案。
推理和预测都是有价值的,在一个典型的研究项目中,我们既想知道生物医学过程是如何发生的,又想知道接下来会发生什么。
从推理和预测的角度,可以对经典统计学和机器学习作出区分。经典统计学从样本中得出对总体的推理,而机器学习则专注于发现预测模式。
机器学习则更具有探索性,主要使用监督和非监督学习来创建问题的预测模型,较少依赖于假设,甚至不需要预先假设变量之间的潜在关系。机器学习算法通常比统计学相应的方法复杂得多,并且需要在迭代训练过程开始之前就做出设计。
统计学家使用“数据模型”对数据产生的过程作出假设,然而机器学习的“算法模型”倾向于忽略数据产生的过程(认为数据是未知的或无趣的,只关注观察到的数据的关系)。
经典统计建模是为小规模到中等规模的数据(只有很少的变量和特征)设计的,在这种模式中,模型填充了系统未观察到的方面。然而,随着输入变量的数量和它们之间可能的关联的增加,捕捉这些关系的模型变得更加复杂。
而由于有大量的变量,大多数ML是不可解释的,通常不适合用于理解关系(如因果关系)。在仅仅需要预测的情况下,机器学习表现良好。机器学习将算法视为黑盒,只要它能起作用就行。与经典统计学不同,即使在没有精心控制实验设计的情况下收集数据,并且存在复杂的非线性相互作用时,机器学习也是有效的。
推理的合理性通常取决于我们是否认为它足以捕获生物系统的本质,机器学习算法的选择通常取决于过去类似场景下生物系统性能的情况。两者都要求将误差最小化,因此都会使用各种优化策略进行改进。
经典统计学和机器学习是共存的,对两者如何使用的选择应该基于具体的分析问题。推理和预测也是互补的,它们指引我们得出有生物学意义的结论。
(Chris)
----------- End -----------
临床试验数据共享:挑战和前进之路
虚拟临床试验:挑战和机遇
美国FDA如何监管医疗AI:监管框架和当前获批产品
合作制药时代,虚拟制药公司发展的新契机
近两年AI药物发现领域国内外重要投资:7项上亿美元,21项超千万美元
跨界者在行动:互联网巨头在AI药物发现方面,都做了哪些工作
涉及AI的临床试验的国际指南SPIRIT-AI和CONSORT-AI在顶尖医学杂志发布
AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例
AI辅助药物临床试验受试者招募:几种方式和几个问题
虚实结合的AI药物发现:现场数据生成,模型迭代更新