通过匹配共同最近邻居校正 scRNA-seq 数据中的批次效应

大型 scRNA-seq 数据集包含来自不同时间点,不同实验室得到的数据,其中存在的批次效应可能干扰数据的整合和解释。现有的 scRNA-seq 分析技术错误地假设不同批次细胞群的组成是已知的或相同的,为此,本文献中作者提出了一种从高维表达谱数据中寻找共同最近邻居(mutual nearest neighbors, MNNs)进行批次效应校正的策略。该方法不依赖先前所提及的假设,只需批次之间存在共享的群体。不管是在模拟数据还是真实数据中,该方法表现均更加优秀

Introduction

大型研究往往包含来自不同实验室的数据,这些数据是在不同操作者,不同时间点,不同操作流程等情况下获取的,可能导致存在批次效应,使得某一批数据中基因表达情况与另一批次的数据存在系统性的差异。这样的差异可能会掩盖背后真正的生物学原因,因此需要在后续分析之前进行校正。
大部分现有的方法进行批次效应校正时都是基于线性回归的,而且多是针对 bulk 数据,因此,将它们用于 scRNA-seq 数据是假设各批次细胞群体组成是一致的,批次间存在的系统性差异都被归为技术差异,可以被剔除。但实际上,不同批次细胞组成往往不一致,因此对批次区块因素估计的系数不仅仅是技术层面的,还包括生物学层面的。基于这些系数进行批次效应的校正将会得到错误的细胞表达谱,最终得到的结果可能还不如不校正。
另一种方法是从一个参考数据集中选取一组标志,从而将新的数据映射至参考数据集上。其基本原理是认为对于参考数据集中的某一细胞类型,在新的批次中与之最相似的应该是同一类型的细胞。该映射策略可以通过 PCA,传播图(diffusion maps),t-SNE 等实施,需要从参考数据集高维空间中选取能够覆盖之后所有批次细胞类型的标志点。因此,假如新的批次中出现了新的细胞类型,这些细胞类型就没法映射至由标志点定义的空间中的正确位置。
作者提出了一种新的方法,能够基于批次间的 MNN 移除生物学相关的批次间差异。这些 MNN 被认为是批次间同一细胞类型中最相似的细胞,这些细胞间的差异使得我们能够估算批次效应,得到批次效应的校正向量,从而应用于细胞表达数据进行批次校正。该方法能够自动识别批次间群体组成的重叠部分,且仅利用该部分进行校正。

匹配相互最近邻居进行批次校正

新方法寻找不同试验批次或重复之间具有相互类似表达谱的细胞,认为这些细胞之间的差异是由批次效应导致的,而不涉及背后所感兴趣的生物学因素。另外,该定义将一些不感兴趣的生物学特征轨道了批次效应中。
第一步,通过余弦归一化对数据进行缩放,如 Yx 表示细胞 x 的表达向量,则标准化结果为 Yx/||Yx||,然后计算细胞对之间的欧几里得距离。整个过程相当于计算原表达向量之间的余弦距离。余弦距离广泛用于衡量细胞之间的相似性,且与标度无关,面对批次间测量深度和捕获效率的差异都表现出足够的鲁棒性。
第二步是鉴定相互最近邻居。设想某个 scRNA-seq 实验包含两个批次:batch1 和 batch2。对于批次1中的每个细胞 i1,在批次2中存在 k 个细胞与之有着相同的最小距离,即在批次2中有 k 个最近邻居。同样,对批次2中的每个细胞,找出其在批次1中的最近邻居。如果各批次间的一对细胞分别包含于对方的最近邻居集中,我们称这对细胞为相互最近邻居,认为它们是同一细胞类型或者处于同一状态。 最后,就是比较 MNN 对细胞间表达水平的差异,即代表批次效应。
整个方法有以下3个假设:

  1. 批次之间至少有一类细胞是同时出现的;
  2. 批次效应与生物学亚空间之间基本是正交的;
  3. 不同类型细胞之间的批次效应差异远小于生物学差异

生物学亚空间指的是一组代表生物学过程的基础向量,比如表示细胞周期的,表示特定细胞类型的等。向量长度与基因数一致,每个细胞的表达谱就是这些向量的线性总和。批次效应也通过等长的向量表示,加到各细胞表达谱上去。在上述假设情况下,不同批次的同一细胞群之间会形成平行的超平面。另外,对于高维数据中随机某个一维的批次效应向量,正交假设很弱,特别是考虑到局部生物学空间本征维数通常远低于数据集中基因总数。
对于每对 MNN,计算细胞之间的表达谱差异得到 MNN 对特异性批次校正向量。虽然一组生物学相关基因(如变化差异大的基因)有利于 MNN 的鉴定,但批次向量的计算并不是非得处于同一空间。因此,我们可以通过不同的基因组合计算批次向量,然后根据高斯核加权平均得到每个细胞特异性的批次校正向量,使各细胞的校正平稳进行,确保高维表达空间内相邻细胞平滑地变化。批次向量的高斯平滑导致局部的线性批次校正。这样的局部线性校正使得整体校正过程容许批次效应的不连续。所有细胞均进行校正,不管是否属于某个 MNN 对,即哪怕某种细胞类型在其他批次中不存在,也能够进行校正。

MNN 校正在模拟数据中的表现优于现有的方法

作者构造了一组模拟数据:包含两个批次,每个批次中含有相同的3种类型的细胞,但所占比例不同,分别用 MNN,limma 和 ComBat 进行校正,然后根据 t-SNE 图评估校正结果。如果成功移除批次效应,结果中应该包含3个分支,代表3中细胞类型,而且每个分支均为两个批次细胞的混合物。结果发现只有 MNN 呈现出理想的结果,其他方法至少存在一个分支仅包含来自单个批次的细胞。

MNN 校正在造血细胞数据中的表现优于现有的方法

作者整合了来自不同实验室,通过不同 scRNA-seq 技术得到的两个造血细胞数据集,以检验 MNN 在真实数据中的表现。为了进行评估,作者对校正前后的表达数据进行 t-SNE 降维,发现只有 MNN 成功将不同批次间共有的细胞类型聚在了一起,并保留了背后的分化层级结构。为了确保该结果并非由于 t-SNE 方法本身特性导致,作者对两个批次共有的细胞类型进行了 PCA 分析,发现 MNN 仍是所有方法中最有效的。
为了表明批次效应和生物学超平面之间的正交性,作者绘制了 MNN 计算所得批次向量与前两个主成分之间的夹角的直方图,发现大部分夹角接近90度,支持近正交的假设。此外,MNN 校正后数据的传播图得到的细胞类型分化层级结构与之前的一致,以及随机选取基因子集重新进行分析得到的结果仍然类似,均证明了 MNN 方法的可靠性。

MNN 校正在胰腺数据集中的表现优于现有的方法

为进一步评估 MNN 整合更复杂数据集的能力,作者将目光对准了胰腺。胰腺是具有高度异质性的组织,且已知多种细胞类型。作者将来自不同测序技术得到的多个人类胰腺细胞公共数据集进行了整合,进行分析。MNN,limma 和 ComBat 三种方法在根据细胞类型进行聚类时均能改善其表现。这个结果并不意外,因为四个批次间各类型细胞所占比例相差不大。但是,即便是构成上存在很小的一点差异,也会造成 limma 和 ComBat 校正无法正确地将导管和腺泡细胞分开,而 MNN 仍不受影响。为了评估校正对基于细胞类型聚类的影响,作者通过计算每种细胞类型的平均轮廓宽度来评估聚类分离度,发现 MNN 对应的轮廓系数明显大于未校正和 limma 及 ComBat 校正后的数据。所以,MNN 能够减少同一类型细胞内的批次差异,同时保留细胞类型之间的差异。另外,作者还通过计算混合熵来量化不同批次细胞混合物的边界,发现经 MNN 校正的数据相较其他几种情况具有更高的混合熵。另外可以通过观察 t-SNE 和 PCA 结果中空间维度的减少的值批次混合后存在改善。综上,当批次效应与生物学空间正交时,它们能够被充分地移除。随机取样结果表明胰腺数据中发现的结果对不同大小的输入基因集具有足够的鲁棒性。

MNN 校正改善差异表达分析

经过批次效应校正后,表达值可用于常规的下游分析如基因差异表达鉴定。