测序技术发展史及应用

我是主讲人Bonnie,今天我们给大家分享的内容来自公众号“红皇后学术”,主题为:测序技术的发展历史及应用。在上一讲中,我们对微生物群落研究中最基本的概念“分子钟”以及最常用的“分子钟”16S rRNA基因进行了介绍。今天我们将会从基因测序技术的发展历史开始,介绍基因测序技术在微生物群落研究中的应用情况。
PART 1

测序技术的发展历史

首先我们来看一张图:

图1 测序技术的发展历史

一代测序技术指的是由1975年Sanger提出的链终止法以及1977年由Gibert所发明的链降解法。目前,基于第一代测序技术的测序仪几乎都是采用Sanger提出的链终止法,核心原理是依据ddNTP的2‘和3’端都不含羟基,在合成核酸链的过程中无法形成磷酸二酯键,从而导致DNA合成反应中断。应用这一技术,科研人员完成了第一个人类线粒体基因组、第一个细菌基因组、第一个真核生物酿酒酵母基因组以及人类基因组计划的测序工作

图2 Sanger测序原理

而且第一代测序技术每个反应可以得到700-1000bp的序列,具有准确性高、运行时间短的优点,适用于低通量的快速研究项目。但是一代测序技术一次反应只能得到一条序列,通量非常低,虽然单个反应价格便宜,要想获得大量的序列成本还是非常的高。因而现在的一代测序技术主要应用于目的基因片段的PCR产物测序以及对二代或三代测序技术得到结果的验证。

由于一代测序高昂的价格和漫长的周期,在21世纪测序技术出现了第一次的里程碑式的发展,以Roche公司的454技术、ABI公司的SOLiD技术和Illumina公司的Solexa技术为标志的二代测序技术(也就是高通量测序技术)应运而生。

图3 二代测序技术
这三种技术的原理并不相同,454技术也被称为焦磷酸测序,边合成变测序,通过检测焦磷酸识别碱基;SOLiD技术是由四色荧光标记寡核苷酸的连续连接合成为基础,取代了传统的聚合酶连接反应,可对单拷贝DNA片段进行大规模扩增和高通量并行测序。而Solexa在测序的过程中,加入改造过的DNA聚合酶和带有4种荧光标记的dNTP,用激光扫描反应板表面,根据dNTP多带的荧光读取每条模板序列每一轮反应所聚合的核苷酸种类,经过“合成-清洗-拍照”的循环过程,最终得到目的片段的碱基排列顺序。目前,illumina公司的Hiseq测序仪已经成为全球使用量最大的二代测序仪器,原理和Solexa一致。

图4 二代测序技术原理

二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性。相比于一代测序技术,测序通量得到了数量级的提升,降低了单条序列的成本。然而二代测序技术的序列读长较短,Illumina平台最长为250-300bp,454平台也只有500bp左右;由于建库中利用了PCR富集序列,因此有一些含量较少的序列可能无法被大量扩增,造成一些信息的丢失,且PCR过程中有一定概率会引入错配碱基;想要得到准确和长度较长的拼接结果,需要测序的覆盖率较高,导致结果错误较多和成本增加。

在2011年和2014年,PacBio和ONT公司分别发布了新型的单分子测序技术平台,这种突破性的测序技术被成为第三代测序技术。与前两代测序技术相比,其最大的特点就是单分子测序,测序过程无需进行PCR扩增,并且理论上可以测定无限长度的核酸序列。

第三代测序技术具有近乎完美的一致性和准确性,三代测序单碱基错误率虽然很高,但是这种单碱基的错误是随机发生的,因此,对同一段序列测序覆盖多次就能够进行纠错,一般覆盖到10X以上的深度就能达到99.9%的正确率。同样,三代测序不存在测序的偏好性,因为SMRT技术在样本制备时无需PCR扩增,对于某些具有极端的碱基组成的核酸区域,三代测序也是无偏好性的,也不会受到回文序列的影响。三代测序还具有超长的读长,平均可以达到10kb,理论上可以达到无限的读长。

5 三代测序技术原理

虽然三代测序单条序列读长很长,但是其单条序列准确性较低,需要较大的测序深度对其进行校准,因而增加了测序的成本。

PART 2

测序技术在微生物研究领域的应用

一代测序技术目前在微生物研究中应用最广泛的是是对纯培养单菌进行系统发育鉴定,通过PCR扩增得到纯培养菌株的16S rRNA基因全长片段,使用一代测序获得序列,通过相似性比对判断其系统发育位置。

一代测序技术也开发出了几种微生物群落水平的研究方法,比如PCR-DGGE技术,通过对微生物群落样品的PCR扩增,由于不同物种16S rRNA的碱基组成不同,其在聚丙烯酰胺凝胶电泳中迁移速率不同,通过切胶回收后进行一代测序,获得不同物种的16S rRNA序列,进而分析微生物群落组成结构,但是这种技术随着二代测序技术的普及已经被淘汰了。先前我们提到了二代测序有读长短的缺陷,但是这并不妨碍其成为目前微生物群落研究中最主力的测序技术平台。

基于二代测序技术研究微生物群落的方式主要有两种:扩增子技术和宏基因组技术。

扩增子测序是通过PCR的方法特异性的扩增目标样品微生物群落16S rDNA、18s或ITS的可变区 (一般为一个或两个可变区),应用PCR产物建立测序文库,使用二代测序技术进行高通量测序,之后利用生物信息学方法分析微生物群落的细菌组成及其丰度,进而比较不同样品间微生物群落的差异。该技术测序通量高、实验周期短、价格相对便宜,是目前研究微生物群落最为常用的技术手段,但是该技术只能获得微生物群落的组成结构信息,对于微生物群落的功能研究只能通过一些软件进行预测,结果并不准确。

图6 扩增子研究

而宏基因组 (Metagenomics)是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。该技术理论上能够获得微生物群落的所有基因序列,因而能够分析微生物群落的功能变化,但是该技术测序成本较高同时数据分析的难度相比于扩增子不可同日而语,建议大家对于扩增子技术有了足够的了解并且实践了一些研究项目之后,再考虑宏基因组测序技术的研究。

图7 宏基因组研究

二代测序由于读长较短,只能测定16S rRNA序列中两个相邻的可变区,因而在物种分类学注释时具有一定的限制,很多序列无法达到种说属水平分辨率的注释。

而三代序列的长读长可以满足16S rRNA全长序列的高通量测序,因而解决了二代测序所面临的问题。在三代测序发展初期,成本相对二代测序依然是数倍甚至数十倍的增加,只有少数研究中会应用全长扩增子测序技术,随着技术发展,测序成本逐渐降低,结合三代测序技术注释可信度高、检测灵敏度高、无GC偏好等优点,涌现出了更多全长扩增子研究,还出现了利用三代测序技术进行的宏基因组研究,三代测序长读长Reads能够更为精准地鉴定水体、土壤、肠道等生境中微生物的种类的鉴定,能够更加快捷地获得更多微生物物种的全基因组序列。

杂谈

《数据可视化基础》两个或多个连续性变量相关可视化(一)

2020-8-27 11:51:58

杂谈

新冠疫苗出来时谁先接种?模型说不一定!

2020-8-27 19:37:57

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索