长读长单细胞RNA异构体测序(scISO-Seq)可以揭示单个细胞中的转录本剪接等结构变异研究,但仍存在测序通量低、研究成本高等瓶颈,且转录本测序深度覆盖度低,分析结果相对不准确。
2023年5月6日,华大基因唐冲博士团队和中山大学眼科中心眼科国家重点实验室刘奕志院长团队共同在Nature Communications(影响因子:17.694)发表名为“High-throughput and high-accuracy single-cell RNA isoform analysis using PacBio circular consensus sequencing”的文章(点击文末“阅读原文”查看文献)。
该研究突破关键技术瓶颈,开发了HIT-scISOseq技术,将单细胞多个cDNA串联建库,结合PacBio平台(CCS)测序,以实现高通量和高精度的单细胞RNA亚型测序研究。
HIT-scISOseq可以助力单个PacBio Sequel II SMRT Cell产出8M数据量,获得大于1,000万条的高精度全长转录组有效reads,同时利用新开发scISA-Tools分析工具,将HIT-scISOseq多倍通量串联测序片段用为单细胞cDNA分析,准确度和特异性大于99.99%。
此项研究中应用HIT-scISOseq技术解析表征3,375个角膜缘细胞的转录组,揭示其中的细胞类型特异性异构体表达。
关键技术路线
采用高通量单细胞分选技术,获得单细胞全长cDNA序列,利用生物素化的PCR引物对全长cDNA进行扩增,然后使用链霉亲和素珠捕获扩增的生物素化的cDNA(图1),并使用USER酶在cDNA的两个末端产生粘性末端,进一步使用DNA连接酶连接多个cDNA构建CCS文库后进行长读长测序。
图1 HIT-scISOseq单细胞全长转录组数据的技术流程
重要研究成果
● 有效数据获得率高
采用相同的样本进行不同技术测评显示结果如下:
1. HIT-scISOseq cDNA特有捕获技术,可将无效TSO artifact reads从50%降低到8%(图2b);
2. HIT-scISOseq有效比对reads数是常规单细胞全长转录组技术的平均8.3倍(图2c);
3. HITscISOseq得到的单个细胞基因数(或单个细胞UMI数)要明显高于常规单细胞全长转录组数据(图2g)。
图2 HIT-scISOseq单细胞全长转录组数据性能概述
● 细胞类群分析结果与短读长一致
1. 为了验证HIT-scISOseq区分不同细胞类型的能力,研究者比较了HIT-scISOseq和RNA短读长测序在相同的高通量单细胞平台获得的角膜缘上皮细胞cDNA样本上,HIT-scISOseq和短读长测序平台之间的cell标签的UMI计数(Pearson系数r=0.992)和基因的UMI计数(Pearson系数r=0.956)之间存在很强的相关性(图3a,b);
2. 生物学重复样本间采用HIT-scISOseq技术获得单细胞UMI计数也具有较高一致性(Pearson系数r=0.998)(图3c);
3. 相同样本在不同测序长度下,细胞聚类结果类型及边界基本一致(图3d,e);
4. 细胞条形码计数的高度一致性,表明HIT-scISOseq 可以可靠地分析高通量单细胞转录组(图3f);
5. 每个细胞类群前15个标记基因的表达并在两个平台之间发现了相似的表达模式(图3h,i)。
这些结果证实,基于HIT-scISOseq的单细胞基因表达谱分析结果与基于短读长测序的方法的结果相当。
图3 HIT-scISOseq单细胞全长转录组数据进行单细胞基因表达分析
● 单细胞转录本亚型丰度与已知成分高度一致
为了验证HIT-scISOseq可以准确量化亚型表达,首先使用SIRV来演示亚型检测。
1. 使用HIT-scISOseq SIRV同种型数据,显示混淆率低至0.1066%(1-TPR,图4b);
2. 通过将HITscISOseq获得的观察值与已知的ERCC异构体丰度数据进行比较来评估异构体量化结果:HIT-scISOseq测得的丰度与已知成分高度一致,相关系数为0.97(图4a)。
图4 HIT-scISOseq单细胞全长转录组数据进行单细胞异构体水平表达分析
● 在识别和量化单细胞亚型方面的能力强
1. 研究者从样本s1和s2中保留了单细胞水平29,392和31,793个异构体亚型,其中FSM(完全剪接匹配:与参考注释匹配的异构体)是两个样本中最丰富的亚型,并且有相当数量的NNC亚型(已有结果至少一个未注释:包含至少一个未注释的剪接位点的同种型),表明HIT-scISOseq可用于改进参考单细胞转录本异构体注释(图4c)。基于亚型水平的表达,我们观察到同一个细胞聚类模式如上述基因水平分析(图4d);
2. 进一步分析了每个细胞簇的前15个标记亚型,发现其中一些亚型以前未被识别(图4e)。在每种细胞类型中选择了2个标记亚型用于表达模式验证,并且结果显示这些标记亚型确实呈现细胞类型特异性表达(图4f,g),证明HIT-scISOseq是能够有效解析单细胞亚型表达。
总结
HIT-scISOseq是一种高通量、高精度、技术上可行的方法,可以加速长读长单细胞转录组学新兴领域的发展,极大地推动高通量单细胞长读长测序成本的降低。
原文链接:https://doi.org/10.1038/s41467-023-38324-9