scRNA-seq 用于确定细胞身份。
单细胞转录组实验设计
不同的实验目的会导致不同的需求,从而影响我们对单细胞转录组测序技术的选择。例如,为了寻找罕见的细胞群体,我们需要对大量细胞进行测序;而为了区分确定相似类型细胞之间的差异,则要求技术对低表达量的基因具有高检出率,以及较低的技术噪音干扰。
简单来说,每种 scRNA-seq 技术都包含以下3个方面:(1)单细胞的分离;(2)文库制备以及(3)测序。细胞的分离需要将样本分离,然后将单细胞分选至 PCR 板的孔内,微滴,微孔或者微室内。文库制备包括对整个 mRNA 或其 3’/5’ “标签”端进行反转录和扩增。测序通常是高度 multiplexed,深度从每个细胞25000条到5000000条 reads 不等。
对于需要高通量的实验,基于微滴的 scRNA-seq 技术如 InDrop,Drop-seq 以及 10X Chromium 更受欢迎,因为它们在捕获和文库制备上更加划算。但是,相较于其他方法,基于液滴的方法在检测率和 mRNA 捕获方面表现较差。替代的方案包括基于微孔和组合索引(combinatorial indexing),但这些方法需要在片段化之前就加上细胞特异性条码,因此只能进行3’/5’测序。
对于小规模的实验,两大类主要的方法为(1)基于 PCR 板的方法如 Smart-seq2,SCRB-seq,CEL-seq 等和(2)MARS-seq(细胞通过细胞分选仪或微流芯片进行分离,将细胞捕获和文库制备步骤整合到一起)。这些方法在细胞捕获层面价格稍贵,但是检测率更高。此外,这些方法能够同时支持3’/5’测序和全长测序。之前的研究表明这些方法在测序深度为每个细胞一百万条reads时基因检测率最大,不过更深的深度有助于亚型或低丰度 ncRNA 的准确量化。
scRNA-Seq protocol 的一个重要考量指标是 doublet rate。对于高通量的方法,需要对捕获效率和 doublet rate 做一个取舍,一般目标为将后者限定在1-5%;对于微流芯片,也有类似的取舍,目前能在 doulet rate 达到1-10%的情况下实现更高的捕获效率;对于基于平板的方法,这一方面的考量就没那么强烈了。
除了 doublet,另一个需要考量的指标是批次效应,它们来源于实验效率或者细胞状态上的差异。如果感兴趣的生物因素是在不同的批次下进行实验的,那么将无法将其与技术因素导致的偏差分离开来,因此需要我们在实验设计阶段认真考虑。
scRNA-seq 通常会结合 UMI 和 外源 RNA spike-ins。UMI 能够将 reads 分配至单个反转录事件,估算最初的分子数,从未消除扩增带来的干扰;而外源 RNA spike-ins 则可以根据 read counts 来估计绝对转录本数量,用于标准化。基于平板的方法同时支持 UMI 和 spike-ins,而基于微滴或微孔的方法仅支持 UMI,至于微流设备,具体得看其装置的设计。
由 ERCC 联盟给出的标准的 RNA spike-ins 与实际哺乳动物的转录组还是存在一定的差异的,包括转录本长度,核苷酸组成,poly-A 尾长度以及缺少内含子。有研究表明 ERCC spike-ins 相较内源 mRNA 捕获效率更低,且在某些条件下技术变异会超过内源基因。此外,spike-ins 的技术还受到生物学因素的影响,使得它们并不是一个完美的对照组。因此也有在开发新的 spike-ins,可能可以减轻上述存在的问题。
UMI 是一段长为4-10bp的条码,在反转录时加在 cDNA 的5’或者3’端,所以只能与3’/5’测序方法联用。3’/5’测序会失去亚型信息,捕获到的变异数量减少,无法估测等位基因表达情况;不过其优点在于能通过 UMI 消除扩增带来的干扰和基因长度带来的偏差,从而在低测序深度的情况下仍保持较高的准确性。至于全长测序,则会受到3’或者5’偏好性带来的干扰,优点在于敏感性更强,能够检测亚型以及评估等位基因表达。