长读长测序技术由于在读长上所具备的优势,可以检测到结构变异、短串联重复,也可以检测到单体型,区分真假信息,同时还可以捕捉到其他复杂序列结构信息。随着准确性的提升,长读长测序的应用变得越来越广泛。那么当前使用者对长读长测序技术有哪些期望呢?长读长测序技术想要成为主导需要解决哪些问题呢?
今天,我们共同关注长读长测序技术。希望本文能够为相关的产业人士和诸位读者带来一些启发和帮助。
长读长的过去和未来
牛津纳米孔(ONT)公司是全球最著名的长读长测序公司之一。该公司的技术源于三位研究者的想法:当时在加州大学戴维斯分校的David Deamer、牛津大学的Hagan Bayley以及哈佛大学的Dan Branton。
具体地,该技术让一串核酸穿过蛋白质纳米孔,并让离子电流流过纳米孔。当碱基通过蛋白纳米孔时会对离子电流造成阻碍,导致电流变化,从而可以判断出具体的碱基。
该技术一次读取一组碱基,大约6个碱基发出的信号最强。因此,美国约翰霍普金斯大学的研究员Steven Salzberg表示,大概有4096(46)种碱基的可能性。这看起来会使这项技术的应用变得困难,但事实上,举个例子,当纳米孔遇到AGCTGA序列时,后面的序列只需要在最后五个字母的基础上再添加四个字母中的一个。因此,下一个序列应该是GCTGAA、GCTGAC、GCTGAG和GCTGAT中的一个。
这一长读长测序技术的潜在应用包括传染病、植物研究和环境测试。Sanghera说,对即将到来的“基因组时代”来说,拥有一种唾手可得的生成数据的方法是具有革命性的,在这个时代,测序技术可以应用于许多方面,并且其应用范围将变得越来越广泛。
Sanghera说,一种可以畅想的技术是内置ONT装置的牙刷。它可以用来检查人们刷牙时释放的微量血液中的信号“特征”。这些特征或将反映使用者的癌症情况,或者提示其需要去就医。其他应用可能涉及检测食物或环境中的病原体。Sanghera说,牙刷体现了“我们认为会发生什么”的设想。
另一家长读长公司名为太平洋生物科学公司(PacBio)。PacBio公司采用高保真(HiFi)测序,在该技术中,酶会绕着模板进行滚环测序,片段会被多次测序。HiFi测序是从该公司的核心长读长技术——单分子实时测序(或称为SMRT测序)发展而来的,这项技术是由该公司的首席科学官Jonas Korlach参与开发。
在Korlach于康奈尔大学Watt Webb实验室读研究生时期,其就对大分子“机器”非常着迷,其中之一就是DNA聚合酶(DNAP)。DNAP以每秒100个碱基的速度快速复制基因组。他说,这是经过数百万年进化而来的“最强大的测序机器”。
Korlach一方面尝试探索DNAP的作用机制,另一方面积极研究如何使用标记的核苷酸来区分四种DNA碱基。例如,他探索了当每种碱基被添加到互补链上时,该酶是如何保持在正在形成的DNA链上的。然而,如果没有对单个聚合酶分子进行成像的方法,那么就无法准确鉴别被标记的核苷酸。因此,他的导师Webb建议他联系Harold Craigshead实验室寻求合作。
Stephen Turner是Harold Craigshead实验室的一名博士生,因此机缘,其与Korlach成为了合作伙伴,并保持友谊至今。Turner创立了PacBio公司,而Korlach是PacBio公司的第8号员工。他们开发出了使SMRT测序更可靠的方法,例如,通过将标签附着到核苷酸上,使DNAP不会从正在形成的DNA链中脱离。
随着PacBio公司和ONT公司不断优化改进他们的测序仪器,人们对长读长测序也有了更多的期待。
期待1:一体化
大多数基因组学项目应用多种技术来解决诸如序列重复、结构变异和缺乏多样化的参考基因组等问题。为了更充分地反映人类全球基因组多样性,人类泛基因组参考联盟(HPRC)使用HG002受试者的样本进行了方法学测试。HG002是一位参与了人类基因组计划的德系犹太人,他同意使用他的样本。HPRC采取的测序技术包括:PacBio HiFi 长读长测序、ONT 长读长测序、10×Genomics linked reads测序、HiC linked reads测序、光学图谱和Strand-seq。
浙江大学的张国捷表示,准确性是同时采取多种技术的主要原因之一。他说,如果长读长测序更准确,实验室将不再采取多种技术来互相辅助和相互验证。
Rehm说,长读长测序对于解决人类基因组中一些更复杂的结构变异是有用的,它为研究人员提供了一种方法来研究高同源性区域,这些区域有时包含了在临床上很重要的基因。利用长读长,科学家可以比短读长更好地解析短串联重复,以进一步进行基因分型,确定它们属于哪些等位基因。
她与ONT、PacBio和Illumina公司合作研究罕见病。在她看来,长读长测序需要变得“绝对便宜”。她说:“理想情况下,我们应该在一个平台上完成所有的事情,而不是通过多个平台完成不同的事情。”
一体化读长测序的世界尚未到来,但已经有一些组合技术开始出现。ONT和10×Genomics公司已经建立了一项协议,通过使用ONT PromethION设备并按照10×Genomics平台的要求进行相应的样品制备,从而连接纳米孔测序和10×Genomics的单细胞分析和空间分析技术。用户可以捕获序列,并同时获取多种信息,如同源异构体的转录丰度和空间转录组数据。
Ultima Genomics公司的首席科学官Doron Lipson表示,如果实验室能够拥有一台可以解决所有问题的机器,这将是最理想的情况,但为了获得“全面的、完整的图谱,端到端(end-to-end)的一切”,研究人员可能总是要结合各种方法。
Lipson认为Illumina公司最近推出的长读长技术与“已经存在一段时间”的方法类似,DNA被标记并片段化,随后进行测序,通过标记可以跟踪每个片段的来源,然后进行组装。他表示,Ultima也在探索这一领域。
Lipson说,也许有一天实验室会有一体化的机器,可以为科学家们提供所需的所有数据,“但这还需要一段时间。”最终,测序仪将成为“测量未知的设备”,科学家可以通过将感兴趣的信号转换成DNA序列信号来获得读长。
目前,测序正在进入一个新时代——越来越多的实验室正在扩大其项目的测序规模。即使较小的实验室也可以成为“大规模”测序工厂,因为准备和分析都变得比以前更容易。Lipson说,生物学的难题仍将存在。这是“生物学的魅力和魔咒”,当测量结果提供了对人们知之甚少的东西的见解时,它就会引发新的问题。