scRNA-seq 在发育,生理学以及疾病研究中的应用

人类细胞包含有相同大小的基因集,约含20000个基因,但是不同细胞之间选择性表达不同的基因集,导致了细胞间的差异,因此,细胞特异的基因表达谱是其分子功能的基础。传统的基因表达研究需要混合大量细胞以获得足够量的 RNA 进行分析,但这样忽略了组织内细胞之间的异质性,得到的只是所有细胞成分的“平均值”,可能掩盖真实的情况。随着 scRNA-seq 的出现,我们得以以更高的分辨率对单个细胞内各基因的表达水平进行测定,从而提供更有意义的结果。本篇综述中,Steven Potter 教授讲究单细胞转录组分析的基本概念及应用做一个阐述。

Principle

scRNA-seq,相较混池转录组,首先需要将细胞进行分离。此外,由于单个细胞内 RNA 含量较少,因此需要通过扩增获得足量的 cDNA 以便后续测序。目前已经出现了相当数量的 scRNA-seq 方法,对他们进行一个比较,结果如下:

  • Fluidigm 公司的商用系统通过微室(microchamber)能实现高质量的表达谱分析,但价格相对较高
  • 基于微滴(microdroplet)的方法如 Drop-seq,Chromium 以及 InDrop 等能以较低的价格获得成百上千的微滴
  • 10X genomics 公司的 Chromium 系统相较 Drop-seq,在每个细胞内能够检测到更多的基因,能对更多的输入细胞进行测定,且设置和操作更简便,缺点是耗材价格更高。Drop-seq 中,细胞和 bead 是以随机的形式混合到微滴中的,因此需要进行足够程度的稀释才能避免混入两个细胞或两个 bead。对于 Drop-seq,其目标是在没20个微滴中捕获1个细胞,每10个液滴捕获1个 bead。所以,该系统经历双重泊松分布,只有约5%的输入细胞会产出转录组数据。相反,Chromium 系统产生的每个微滴几乎都只有单个 bead,故只需经历单个泊松分布,结果是约50%的输入细胞能产出转录组数据,远高于 Drop-seq
  • 非微流体技术,包括直接挑选或者通过流式细胞荧光分选技术(fluorescene-activated cell sorting, FACS)在微孔板(microwell)上进行单细胞分离。该类方法对细胞大小没有要求,不像 Fluidigm 对不同大小的细胞需要使用不同的微流体设备,而微滴方法虽然因为微滴相较细胞大得多而对细胞大小没那么敏感,但是在对某些细胞生成微滴时也会容易堵塞。此外,该类方法的设备和装配成本也是最低的

从上面的简单分析我们也能看到不同的方法有其优势,也有其劣势,即存在一定的适用性,所以重要的是找到最适合自己实验需求的那种方法。此外,在实验设计层面,我们也需要综合考虑测量的细胞数量,每个细胞的 reads 数量,生物学重复等因素,保证最终分析的统计学效力。当然,还得兼顾成本。

Challenges

单细胞研究最大的挑战就是原材料数量的稀缺。目前所有的 scRNA-seq 都需要进行扩增以获得足量的 cDNA。但是,cDNA 的扩增并非完美的线性,会导致扩增后 cDNA 的组成与原来细胞中的组成并非成比例对应。为此,现在大部分的方法都会使用 UMI 来进行校正。UMI 使得我们能够对反转录后得到的原始 cDNA 进行计数,从而避免由于扩增不均一带来的偏差。

另外一个挑战存在于将组织或器官分离出单细胞这一过程中。最简单直接的方法是通过显微操作一个个分离,但显然不适合大量细胞的情况;另外一种方法是激光捕获纤维切割(Laser capture microdissection, LCM),用激光束从冷冻切片上分离单细胞,优点是能同时提供感兴趣细胞的空间信息,缺点仍是低通量和劳动密集型,此外,分离单细胞时避免邻近细胞的干扰和以及不破坏细胞内 RNA 对操作技术层面的要求也比较高。当感兴趣的细胞比较稀有时,可以通过 FACS 对其进行富集。
现有的方法在单细胞分离的过程中会损失空间信息,所以重构三维的基因表达谱需要利用到这些类型细胞已知的基因表达特征,根据表达的基因判断属于哪种类型的细胞;如果是新鉴定的细胞类型,则需要通过原位杂交或者免疫荧光等方法进行空间定位。
分离单细胞时所使用的酶都需要在37度进行孵育,而这个温度下,细胞内的转录机制也处于最活跃的状态,因此这些细胞可能在分离过程中改变了表达谱以对外界环境做出应答,事实上确实有文献证明早期应答基因的表达在细胞分离后的几分钟内出现明显的提升。解决这一问题的一种方法是对细胞核而非整个细胞进行转录组测序,因为像尸体解剖样本,细胞死亡或者破损后,细胞质 RNA 已经流失了,另外像肌肉细胞或者神经元会因为体积较大而不适合用 Fluidigm C1 系统。不过核 RNA 的问题在于只有10-20%的细胞 RNA 存在于核中,而且包含大量含有内含子的未处理 RNA,所以这些 RNA 能够多大程度上表示细胞质 RNA 仍存在疑问。
除了通过核 RNA 测序,还可以通过转录抑制剂来保留细胞内的基因表达谱,不过细胞摄取抑制剂的时间较长,且抑制剂无法阻止 RNA 周转,仍可能影响 RNA 的组成。
还有一种方法是通过冷适应蛋白水解酶(cold-adapted proteolytic enzymes),从而在接近零度的条件下进行分离单细胞的操作,尽可能地保留原生的基因表达谱。
不同的细胞分离的难易程度不同,像免疫细胞与其他细胞的结合较松,易分离;而像足细胞,则会通过触须样伸展与肾小球毛细血管紧密结合。另外有些细胞比较脆弱,容易被破坏。 考虑以上种种,最终得到的单细胞悬液很难完美地代表原有的各种类型细胞。

最后一大挑战来自于 scRNA-seq 得到的信息。基因表达是一个瞬时爆发的过程,各种基因转录本的表达量处于不断变化中。另外由于原材料中 RNA 含量有限,因此大部分现有方法只能检测到10-20%的 mRNA 分子,使得低丰度的 RNA 难以被检测到。据估测,噪音中约20%来自生物层面,另外80%则来自技术层面的局限性。
虽然存在较多的干扰,单个细胞的数据存在噪声干扰和不够完整的情况,但基于表达谱数据,我们还是可以较好地将细胞进行无监督聚类。聚类之后,具有相似特征的细胞能够整合在一起得到足够可靠结果,减少噪声的干扰。所以,我们通过单细胞测序避免不同类型细胞混合带来的干扰,但当完成聚类后,又将同一组的细胞整合在一起得到更加完整和可靠的结果。

Data analysis

基因表达了,但是由于技术等原因导致没有检测到其转录本,这种情况我们称为 dropout
数据分析首先要进行质控,一是将基因表达数量低的细胞剔除,通常选择每个细胞表达500个基因作为阈值;另一个是将输出中线粒体 DNA 占比较高的细胞剔除,因为这通常意味着细胞已经死亡,导致细胞质 RNA 流失;另外,基于高血红蛋白表达量,红细胞也会被剔除。
数据分析一个重要的步骤是进行降维,对 scRNA-seq 数据的分析常采用迭代聚类的策略,并基于大量基因构成的复杂基因表达特征,而非限制在某些细胞特异性标志基因,这样可以克服 dropout 可能导致关键基因缺失带来的影响。多轮聚类可以进一步找出不同的亚型,但需要注意的是经过一定次数后,之后聚类可能是基于噪音而非实质的生物学差异进行。对于这种情况,我们可以通过绘制基因表达的热图来进行确定,如果确实是不同的细胞亚型,那么在差异表达的基因上会有一致性,而如果是基于噪音进行的聚类,则难以展现重复性。此外,还可以通过免疫荧光或荧光原位杂交(fluorescence in situ hybridization, FISH)进行交叉验证。

Application

在发育领域,利用 scRNA-seq 探索驱动不同分化路径的基因表达程序有助于理解器官发育的过程。有些细胞早期能够同时表达多种不同谱系细胞相关的基因,称为 multilineage priming,之后才会呈现出谱系特异性的表达谱。谱系选择过程需要一致不正确基因的表达,并激活正确的细胞系特异基因的表达,但这一过程的具体机制仍需要进一步的研究。

REF

  1. Potter SS. Single-cell RNA sequencing for the study of development, physiology and disease. Nat Rev Nephrol. 2018, 14:479-492. doi: 10.1038/s41581-018-0021-7