- 首页 > 全外显子测序
全外显子测序
全外显子测序 (Whole-exome sequencing,WES)是高频应用基因组测序方法。外显子是人基因组的蛋白编码区域,利用序列捕获技术可以将其DNA捕获并且富集。虽然外显子区域仅占全基因组1%左右[1],却包含了85%的致病突变[2]。相比全基因组测序,全外显子测序更加经济、高效。外显子组测序主要用于识别和研究与疾病、种群进化相关的编码区及UTR区域内的变异。结合大量的公共数据库提供的外显子数据,有利于更好地解释所得变异与疾病的关系。
技术优势
- 直接对蛋白编码序列进行测序,找出影响蛋白结构的变异
- 高深度测序,可发现变异频率低于1%的罕见变异
- 仅针对外显子组区域,有效降低测序费用、存储空间和工作量
产品应用
相比于全基因组测序,外显子区域占比小(约1%),因此更容易做到更高深度测序,检测到更多低频和罕见变异,同时也能降低测序费用和存储空间。外显子测序,50M的捕获区域,测序数据量10-12Gb就可以得到100X的有效测序深度。这个特性决定了外显子测序在遗传性疾病和肿瘤研究中的重要作用,特别是做肿瘤异质性研究。由于肿瘤异质性,肿瘤内部有很多亚克隆,有些亚克隆的占比很低,应用外显子高深度测序可以更快、更经济地检测出普通测序深度难以发现的体细胞突变。
图1 外显子测序产品应用
华大基因采用Agilent等液相捕获系统,对人的全外显子组区域的DNA进行高效捕获富集,然后提供基于DNBSEQTM测序技术的捕获测序服务。建库和杂交实验采用官方指定试剂盒,严格使用说明书推荐的试剂和耗材,并参照经过优化的实验流程进行操作。如下为DNBSEQTM外显子测序技术流程。
图2 DNBSEQTM平台外显子建库流程
测序原理
DNBSEQTM平台外显子测序产品 ,采用先进的联合探针锚定聚合技术(cPAS)和改进的DNA纳米球(DNB)核心测序技术,提供一站式、开放性的基因测序全面解决方案,具备精准、简易、快速、灵活、可拓展等优点,既能充分适用临床检测,也能满足更广泛的科研需求。该测序平台产品的外显子数据均一性好、单个碱基质量值高。该平台有五大关键的技术:DNB、Pattern array、cPAS、MDA-PE、sCMOS,保证了该平台测序的准确性。
图3 DNBSEQTM平台优势
首先,单链环状 DNA 分子通过滚环复制,线性扩增2-3个数量级,增强信号。所产生的扩增产物称为DNA纳米球(DNA nanoball, DNB),采用高密度DNA纳米芯片技术,将得到的DNBs加到芯片上的网状小孔内(固定在阵列化的硅芯片上)。通过联合探针锚定聚合技术(cPAS)和多重置换扩增的双末端测序法(MDA-PE)得到读长为100bp/150bp的双末端序列。
图4 DNA 纳米球示意图
MDA-PE的具体原理是:完成第一链(Forward Strand)测序后,在具备链置换功能的高保真聚合酶的作用下,合成第二链(Reverse Strand),并通过DNA分子锚,进行第二链的测序。MDA-PE法具有合成快、准确度高等优点。与其他二代测序技术相比较,DNB测序技术具有以下几个优势:
- DNB通过增加待测DNA的拷贝数而增强了信号强度,从而提高测序准确度。
- 不同于PCR指数扩增,滚环扩增技术的扩增错误不会累积。
- DNB与芯片上的网状小孔大小相同,每个小孔只固定一个DNB,保证信号点之间不产生相互干扰。
- 阵列化测序芯片和DNB测序技术的结合,使得成像系统像素和测序芯片的面积得到充分利用。
信息分析
信息分析从测序的下机数据(raw data)开始,原始下机数据过滤掉接头、低质量碱基、未测出的碱基(以 N 表示)后比对到参考基因组上,进行SNP检测和InDel或者CNV分析,然后通过数据库注释,对变异检测的结果通过基于变异有害性、样本情况和基因功能表型三种分析策略,筛选出于疾病相关的有害性位点或基因。另外, 为了保证高质量的测序数据,在整个分析流程中设置了严格的数据质控体系(QC)。
外显子测序主要适用于肿瘤易感性、致病机理、癌症异质性、转移和复发以及药物疗效研究。其中癌症异质性需要高深度测序,建议200X以上有效深度,FFPE样品建议200-300X对应的数据量,需要尽量全面、准确地检测肿瘤组织发生的所有突变信息,所以测序深度需要尽可能高,以检测低丰度突变位点。ctDNA建议500X及以上有效测序深度,用于检测Somatic 突变以及频率来判断ctDNA的存在和水平,从而反应肿瘤负荷等信息。
图6 肿瘤信息分析内容
产品优势
- 捕获平台:Agilent v6芯片和IDT等多种探针选择
- 测序平台:单链滚环复制,更少PCR扩增错误引入
- 质量卓越:DNBSEQ的变异检测一致性高,对InDel检测灵敏度更高,更适合高深度的肿瘤研究
- 项目经验:发表国内第一篇外显子测序文章,项目经验10年+,平台稳定
- 广泛合作:大学、医院、科研院所、制药公司合作超过6000次,样品总数16万+
参考文献
1. Ng SB1, Turner EH., et al. Targeted capture and massively parallel sequencing of 12 human exomes. Nature.461(7261):272-6.
2. Choi M1,Scholl UI., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing.Proc Natl Acad Sci USA. 106(45):19096-101.
案例1 全外显子测序在单基因遗传性疾病中的应用
A LIMA1 variant promotes low plasma LDL cholesterol and decreases intestinal cholesterol absorption(Science)
案例描述:心血管疾病(CVD)是世界范围内的一类重要的致死疾病,其中血液中高浓度的低密度脂蛋白胆固醇(low-density lipoprotein cholesterol, LDL-C)是它的一个主要危险因素之一。LDL-C如果浓度过高,会沉积在动脉壁中,形成斑块,造成血管堵塞,从而引发心血管疾病。该文章选用的是家系样本。对三个LDL-C低浓度个体和一个正常个体进行全外显子测序,过滤后,只剩LDL-C个体的突变位点,接着通过过滤同义突变、dbSNP数据库、SIFT分值高而POLYPhen V2和Mutation Taster分值低的突变位点。经全外显子测序以及一代测序验证最终发现了一个未知突变LIMA1-K306fs。后对1000多个哈萨克族个体全基因组的LIMA1基因片段进行靶向测序,发现另外3个家系的LIMA1基因中含有L25I突变(LIMA1-L25I (Leu→Ile))。
图1,3个中国哈萨克族低水平LDL-C家族LIMA1-L25I突变鉴定示意图
参考文献:Zhang Y Y, Fu Z Y, Wei J, et al. A LIMA1 variant promotes low plasma LDL cholesterol and decreases intestinal cholesterol absorption[J]. Science, 2018, 360(6393): 1087-1092.
案例2 前列腺癌致癌基因的长尾效应分析
The long tail of oncogenic drivers in prostate cancer(Nature genetics)
案例描述:前列腺癌的深度基因组学分析已经鉴定出一些复发性相关的变异基因,这些基因参与雄激素信号传导,比如DNA修复和PI3K信号传导等基因。然而,更大规模的基因组学分析可以鉴定出一些其他低频的反复突变基因。在这篇文章中,研究人员汇总并统一分析来自1,013个前列腺癌的外显子组测序数据。鉴定和验证了一类新的由表观遗传调节因子中的突变所定义的E26转化特异性(E26 transformation-specific,ETS)-融合阴性肿瘤,以及在之前的前列腺癌研究中未涉及到的途径中的变异,如剪接体途径。同时作者还发现显著突变基因(significantly mutated genes, SMG)的突变率遵循长尾分布,许多基因的突变率不到3%。作者总共确定了97个SMG,包括70个在之前的研究中未报道的前列腺癌SMG,例如泛素连接酶CUL3和转录因子SPEN。最后,通过比较原发性和转移性前列腺癌中的突变位点信息,鉴定出一组可以预测前列腺癌危险分层的基因组标记。
图2,1013个前列腺癌的突变显著基因
参考文献:Armenia J, Wankowicz S A M, Liu D, et al. The long tail of oncogenic drivers in prostate cancer[J]. Nature genetics, 2018, 50(5): 645.
案例3 发现与糖尿病相关的罕见DNA突变
Exome sequencing of 20,791 cases of type 2 diabetes and 24,440 controls(Nature)
案例描述:目前,全基因组关联分析 (GWAS)是寻找疾病相关变异非常流行的一种方法。这种方法可以非常有效地在整个基因组中发现常见的疾病变异,但缺点是可能会漏掉不太常见的外显子变异。这项研究以外显子测序为手段,分析了近5万人(40X)的蛋白质编码基因,鉴定出与2型糖尿病相关的新型罕见变异。这一发现或有助于改进对2型糖尿病的特征鉴别和治疗。通过外显子组关联分析找出7个位点上15个变体表现出显著关联,其中2个是过去GWAS没有发现的新变异。在基因级别上,有3个基因达到显著关联。
图3,外显子组测序与基于阵列的GWAS的比较
参考文献:Jason Flannick et al., (2019) Exome sequencing of 20,791 cases of type 2 diabetes and 24,440 controls. Nature. DOI: 10.1038/s41586-019-1231-2
以下是DNBSEQ外显子测序数据的结果展示。
其中标准品为“瓶中基因组(Genome in a Bottle)”的人类样本NA12878,这是目前被世界上认为研究较为透彻的二倍体人类基因组,并发布了高置信变异集,可作为一个重要工具来了解测序仪和检测结果的表现。
下机数据质量高
下图为碱基分布平衡情况。从图中我们可以看到碱基分布平衡性好,N序列也很少。
图1 BGISEQ-500 外显子碱基分布
Q值反映平台的测序准确性。下图共统计了144个商业样品的数据,其中Q20平均97%,Q30平均89%。数据质量非常高。
图2 BGISEQ-500 外显子下机数据质量
比对率高,覆盖度均一
国际标准品NA12878和商业样品的数据同时显示BGISEQ-500平台外显子捕获特异性(Capture specificity)好、PCR-duplication低、覆盖很均一。如上表显示,平均测序深度120X时,20X以上的覆盖度>97%。
表1 BGISEQ-500 外显子比对统计情况
测序重复性高
150X有效深度时,测序平台的SNP的一致性>98%,InDel的一致性>81%。BGISEQ-500平台外显子测序结果的重复性表现非常好,表明该平台测序结果稳定、可靠。
图3 BGISEQ-500 外显子重复性分析
SNP检测准确性和灵敏性高
对NA12878使用GIAB公布的标准集进行精确度和灵敏度的评估,发现在高置信变异区间,BISEQ-500灵敏度与H测序平台表现相当,甚至优于后者。目标区域内,BGISEQ-500的SNP精确度表现更好。
图4 BGISEQ-500 外显子SNP检测的精确度和灵敏度表现
与其他平台一致性高
BGISEQ-500平台和H平台一致性和特异性比较结果。从图5我们可以清晰地看到,两个平台的SNP一致性高达96%,SNP特异性部分,BGISEQ-500 在PE100读长时,无论是目标区域范围还是标准集的高置信区域,BGISEQ-500都表现出更好的结果,精确度分别为33.68%和96.77% (H平台为25%和38%)。两个测序平台的InDel一致性高达77%,InDel特异性表现和SNP一样,也是BGISEQ-500更优。
图5 BGISEQ-500 外显子特异性分析
DNBSEQ外显子送样建议
DNA样品 |
组织样品 |
组织样品保存和运输指南 |
无蛋白污染; 无RNA/盐离子污染; 样品无色透明不粘稠的DNA; 1. 样品总量≥1μg; 2. 样品浓度≥12.5ng/μL; 3. 完整性:主峰>20Kb |
新鲜培养的细胞:细胞数≥5×106cell |
液氮速冻法:离心后液氮速冻,-80°保存,干冰寄送 |
新鲜动物组织干重 :≥50mg |
1. 液氮速冻法:分割成50mg小块后,液氮速冻,放入干净的带螺纹旋盖的保存管中。-80°保存,干冰寄送。 2. 商业核酸保护液保护法:严格按照说明书操作,组织厚度保持在5mm左右,活体组织离体后建议3分钟内液氮速冻。 |
|
全血(哺乳动物):≥1 mL |
EDTA抗凝管采集。新鲜采集的用移液器转移至2ml的离心管,足量冰袋或者干冰寄送;冷冻血液,干冰寄送。 |
|
唾液:≥1mL |
商业核酸保护液保护法: 推荐DNA Genotek公司的Oragene.DISCOVER(OGR-500)(For
Research)或Oragene.Dx(OGR-500)(For Diagnostics)
collecton kit |
|
FFPE :≥ 10 片,未染色,100 mm2,5
~ 10μm厚度 |
要求有核细胞数量80%以上,肿瘤细胞含量70%以上,常温保存寄送。 |
HiSeq或Nova测序平台送样建议
当DNA总量<1μg,可以尝试微量建库测序,存在一定风险,请客户谨慎选择。微量建库时:①常规DNA样品(非FFPE样品)需同时满足总量≥200ng,浓度c≥2.5 ng/μL,无降解或轻微降解;如果建库采用Agilent sureselect QXT试剂盒,则要求DNA总量≥50ng,浓度≥25ng/μL。②FFPE DNA样品微量建库的风险要高于非FFPE DNA样品。FFPE DNA需同时满足≥200ng,浓度c≥2.5 ng/μL,主带至少要大于500bp等条件。
Q1:滚环扩增技术的特点是什么?
滚环扩增技术RCA的模板始终是同段序列,扩增错误不会累积,与H平台的PCR指数扩增相比有保真优势。
Q2:外显子测序的优点是什么?
答:外显子测序是全基因重测序的一个较为经济的替代手段,对研究基因的SNP、Indel等具有较大的优势。人的全基因组约3G,外显子占人全部基因序列的1%。重测序一般需要测30X,即90G数据,外显子测序一般测50-100 X,在实现较低成本的前提下对发生突变后有可能影响功能改变的序列进行针对性的研究,相当于抓住了主要矛盾,性价比高。
Q3:外显子组捕获测序中的捕获特异性(capture specificity)及覆盖度(coverage ratio)分别指什么?
答:捕获特异性(capture specificity)指比对到目标区域的有效数据量占总数据量的比例。捕获效率的高低不影响数据质量,只影响数据的有效比例。特异性越高代表所关注的目标数据的利用率也越高。覆盖度(coverage ratio)是目标区域被覆盖到的比率,一般外显子的覆盖度都可以达到95%以上;随着深度的增加,覆盖度也会增加。
Q4:外显子测序里面的有效测序深度是什么含义?
答:由于外显子测序在建库的时候有个杂交的过程,所以存在捕获效率的问题。有效深度是指覆盖到外显子捕获区域的总碱基数和区间大小的比值。有效测序深度和捕获效率、捕获区间之间有一定的联系,即有效测序深度=比对上基因组的有效数据在去除Duplication后*捕获效率/捕获区间。有的公司在提供有效深度的时候没有将PCR重复序列去除计算,且使用的是所有的数据,华大在计算有效深度的时候用的是比对到基因组、去除了重复序列后的有效数据再计算得到的数据。所以在相同的深度下,提供给客户的有效数据会更多。
Q5:Duplication是什么,又是如何产生的呢?
答:在基因组测序中,我们说的duplication是特指的PCR-duplication。也就是在PCR过程中产生的基因重复片段。那么,问题来了,为什么我们会在PCR过程中产生重复片段呢?这个问题,需要从测序的原理说起。为了确保测序效果,我们将加好接头的DNA片段过量扩增,确保每一个孔中都能覆盖到足够多的片段。但是,也是因为过量扩增,同样一个DNA片段会扩增出多份拷贝,而这些拷贝有可能也会进入到孔中被测出来。这就会导致这个DNA位置的覆盖度升高。所以,我们就必须要去重。