机器学习在生物网络中的应用

Introduction

过去十年间,我们见证了大量数据的产生,这些数据是我们理解生物系统和复杂疾病的基础,但同时也为分析带来了巨大的挑战。机器学习,作为一个早就存在的领域,越来越多的应用于生物学数据,为研究生物系统提供了新的视角和新的假说
机器学习基于一系列数学规则和统计假设,从训练数据集中学习模式,构建一个预测模型,用于分析新的数据集。本篇综述主要集中于机器学习与网络生物学的交叉,后者主要研究生物分子之间的相互关系,从而构建生物系统模型

Primer

总体而言,机器学习方法可以分成两大类别:无监督和监督学习,其中监督学习中又可以分为半监督学习和集成学习。半监督学习用于标签不完整的场景,即训练集只有一小部分存在标记。通过半监督学习,可以用带标签的数据来推断未带标签数据的标签,其效果一般要优于忽视所有标签进行非监督学习后者舍弃未标签数据进行监督学习。集成学习,则是在单个预测模型中整合多种独立的机器学习模型,这是因为所有的机器学习方法都存在偏好性,整合不同的方法得到的预测将比单一方法的结果更佳

Applying Machine Learning in Biological Contexts

由于技术和生物学差异,一个数据集得到机器学习模型可能不适合另一个数据集。任何应用机器学习模型的新数据集必须具有与训练集相同的基本属性,且使用相同的流程进行处理
机器学习方法,如同分子生物学技术一样,是内容特异性的,不同的方法背后是不同的假设,每种方法的选择都需要有所取舍,因此需要选择适当的方法
机器学习方法的效果受到多种因素的影响,包括特征的选择,参数的选择,以及方法本身等,过往研究的结果给出了几条方法选择的“口诀”:(1)简单的模型一般表现得更好;(2)先验知识能够提升表现;(3)集成学习效果更佳
总而言之,没有一种机器学习方法能够一劳永逸地解决所有问题,因此需要根据实际问题具体分析

Intersection of Machine Learning and Network Biology

Disease biology

网络生物学有助于我们理解错综复杂的疾病生物学。传统的方法依赖于疾病特定方面,如疾病相关基因的识别及特征,而网络生物学则以一个更加整体的形式去进行分析,从而对驱动疾病表型的因素实现更加全面的观察
在定义疾病的网络相关特征时,我们可以通过如 BioGRID 数据库当中的基因,蛋白,化学物质等的互作,