scRNA-seq 用于确定细胞身份。

单细胞转录组实验设计

不同的实验目的会导致不同的需求，从而影响我们对单细胞转录组测序技术的选择。例如，为了寻找罕见的细胞群体，我们需要对大量细胞进行测序；而为了区分确定相似类型细胞之间的差异，则要求技术对低表达量的基因具有高检出率，以及较低的技术噪音干扰。
简单来说，每种 scRNA-seq 技术都包含以下3个方面：（1）单细胞的分离；（2）文库制备以及（3）测序。细胞的分离需要将样本分离，然后将单细胞分选至 PCR 板的孔内，微滴，微孔或者微室内。文库制备包括对整个 mRNA 或其 3’/5’ “标签”端进行反转录和扩增。测序通常是高度 multiplexed，深度从每个细胞25000条到5000000条 reads 不等。
对于需要高通量的实验，基于微滴的 scRNA-seq 技术如 InDrop，Drop-seq 以及 10X Chromium 更受欢迎，因为它们在捕获和文库制备上更加划算。但是，相较于其他方法，基于液滴的方法在检测率和 mRNA 捕获方面表现较差。替代的方案包括基于微孔和组合索引（combinatorial indexing），但这些方法需要在片段化之前就加上细胞特异性条码，因此只能进行3’/5’测序。
对于小规模的实验，两大类主要的方法为（1）基于 PCR 板的方法如 Smart-seq2，SCRB-seq，CEL-seq 等和（2）MARS-seq（细胞通过细胞分选仪或微流芯片进行分离，将细胞捕获和文库制备步骤整合到一起）。这些方法在细胞捕获层面价格稍贵，但是检测率更高。此外，这些方法能够同时支持3’/5’测序和全长测序。之前的研究表明这些方法在测序深度为每个细胞一百万条reads时基因检测率最大，不过更深的深度有助于亚型或低丰度 ncRNA 的准确量化。
scRNA-Seq protocol 的一个重要考量指标是 doublet rate。对于高通量的方法，需要对捕获效率和 doublet rate 做一个取舍，一般目标为将后者限定在1-5%；对于微流芯片，也有类似的取舍，目前能在 doulet rate 达到1-10%的情况下实现更高的捕获效率；对于基于平板的方法，这一方面的考量就没那么强烈了。
除了 doublet，另一个需要考量的指标是批次效应，它们来源于实验效率或者细胞状态上的差异。如果感兴趣的生物因素是在不同的批次下进行实验的，那么将无法将其与技术因素导致的偏差分离开来，因此需要我们在实验设计阶段认真考虑。
scRNA-seq 通常会结合 UMI 和外源 RNA spike-ins。UMI 能够将 reads 分配至单个反转录事件，估算最初的分子数，从未消除扩增带来的干扰；而外源 RNA spike-ins 则可以根据 read counts 来估计绝对转录本数量，用于标准化。基于平板的方法同时支持 UMI 和 spike-ins，而基于微滴或微孔的方法仅支持 UMI，至于微流设备，具体得看其装置的设计。
由 ERCC 联盟给出的标准的 RNA spike-ins 与实际哺乳动物的转录组还是存在一定的差异的，包括转录本长度，核苷酸组成，poly-A 尾长度以及缺少内含子。有研究表明 ERCC spike-ins 相较内源 mRNA 捕获效率更低，且在某些条件下技术变异会超过内源基因。此外，spike-ins 的技术还受到生物学因素的影响，使得它们并不是一个完美的对照组。因此也有在开发新的 spike-ins，可能可以减轻上述存在的问题。
UMI 是一段长为4-10bp的条码，在反转录时加在 cDNA 的5’或者3’端，所以只能与3’/5’测序方法联用。3’/5’测序会失去亚型信息，捕获到的变异数量减少，无法估测等位基因表达情况；不过其优点在于能通过 UMI 消除扩增带来的干扰和基因长度带来的偏差，从而在低测序深度的情况下仍保持较高的准确性。至于全长测序，则会受到3’或者5’偏好性带来的干扰，优点在于敏感性更强，能够检测亚型以及评估等位基因表达。