logo

logo

产品服务

Sequencing services

  • 首页人全基因组重测序

人全基因组重测序

        BGISEQ人全基因组重测序(WGS),采用拥有自主知识产权的测序仪和云计算平台,为广大科研工作者提供高准确度、最具性价比的基因组测序服务和一站式科研解决方案,支持大型队列研究,助力精准医学。


BGISEQ测序平台

        华大基因BGISEQ测序平台采用的是DNB(DNA Nanoball ,DNA纳米球)[1]核心测序技术,独特的线性扩增模式

        DNB技术是目前全球少有的能够在溶液中完成模板扩增的技术,能够在扩增过程避免错误累积的发生,有效提高测序准确度。因为是基于滚环扩增,DNB技术不仅有效增加了待测DNA的拷贝数,大大增强了信号强度,且同一个模板进行滚环复制,即使复制过程中引入单个碱基的复制错误,这个错误也不会像PCR那样把这个信号放大。

        完成模版扩增后,DNB将转载到Patterned Array(规则阵列)上。Patterned Array采用先进的纳米硅半导体精密加工工艺,使用率高,单位测序成本更低。DNB是在溶液里面提前扩增完成的,在loading过程中没有聚合酶、引物和dNTP等PCR条件,所以华大自主测序平台从测序原理上有效的避免了大量duplicates的产生。

图片 6

图1  BGISEQ平台测序原理


给您选择我们的八个理由


  • 稳定的产出高质量测序数据

        对随机挑选的1000+条lane BGISEQ平台 WGS数据质量值进行统计分析,下机Raw data Q20平均值为96.16%,Raw data Q30平均值为87.86%。

图片 1

图2  1000+条lane WGS序质量统计


  • 低duplicates获更多有效数据和更高覆盖度

        Duplicates低,用更少的数据量,得到更多的高准确和高覆盖度的比对数据,可以发现更多变异位点,有助于挖掘疾病的低频和罕见突变,获取更加全面的基因组变异信息。

                                                表1  主流二代测序平台标准品duplicate比率、有效测序深度及覆盖度比较

 Sample

   X 测序平台

   N测序平台

   BGISEQ平台

 Raw bases (Mb)

99998.92

100001.72

100236.61

 Clean bases (Mb)

96314.26

98955.15

99886.02

 Mapping rate (%)

99.61

98.68

99.47

 Unique rate (%)

87.18

86.41

93.31

 Duplicate rate (%)

9.65

10.15

3.02

 Mismatch rate (%)

0.8

0.51

0.48

 Average sequencing depth (X)

29.08

29.52

32.8

 Coverage (%)

99.06

99.06

99.1

 Coverage at least 4X (%)

98.57

98.43

98.62

 Coverage at least 10X (%)

97.77

97.2

97.67

 Coverage at least 20X (%)

91.8

89.45

92.97


  • 高精准度和敏感度的变异结果

        已发表文章结果显示,BGISEQ-500自主平台与HiSeq 2500测序平台变异检测的精准度(Precision)和敏感度(Sensitivity)相当[2]

表2  BGISEQ-500与HiSeq 2500变异精准度和敏感度比较[2]

SNP

BGISEQ-500

HiSeq 2500

Precision

99.78%

99.86%

Sensitivity

96.20%

96.60%


  • 罕见突变检出率及与芯片分型的一致率高

        BGISEQ平台变异结果与Illumina Human Omni基因分型芯片评估,结果表明罕见突变检出率高,且检出的罕见突变与芯片分型结果的一致性高。

表3  BGISEQ平台 30X rare SNP detection rate

Genotyping chip

MAF

NO. of rare SNP

NO. of detection

NO. of concordance

检出率

一致率

OMNI

< 2%

7414

7142

7132

96.33%

99.86%

OMNI

< 1%

3151

3025

3018

96.00%

99.77%

OMNI

< 0.5%

1129

1075

1070

95.22%

99.53%


  • 无Index hopping担忧

        BGISEQ测序仪利用独特的DNA纳米球(DNB)技术,仅使用单个index就实现了前所未有的0.0001%至0.0004%低样本错误分配率。用水代替DNA,加入index,增加空白对照,DNB测序平台发生错误匹配的概率为36 million reads分之一,即0.0000028%[3]

index hopping

图3  不同测序技术的index hopping比例

 

  • 满足多种样本类型的需求

        BGISEQ平台WGS数据来源样本种类多样,其中包含福尔马林固定石蜡包埋( Formalin Fixed and Paraffin Embedded,FFPE)样品、单细胞样品、血液样品、基因组DNA样品、唾液样品、常规冷冻保存的新鲜组织样品等。常规基因组建库测序成功率为99%,对于降解样品如FFPE等,建库测序成功率也在90%以上。

图片 3

图4   BGISEQ平台不同类型样本交付成功率

 

  • BGISEQ PCR-free WGS是从建库到测序真正的PCR-free

        PCR-free建库 + DNB (DNA纳米球)核心测序技术,全方位实现PCR-free,为您还原最真实的全基因组序列。PCR-free WGS 高质量InDel从75%提升到86%,而低质量InDel从12%降低到3%[4],PCR-free建库方法可明显提高InDel calling的精准度和敏感度。

pcrfree3

图5  高质量、中等质量和低质量InDel在不同建库方法的分布

  • 共发表文章106篇

        BGISEQ平台自2015年6月面世以来,截止2018年6月,共发表文章106篇,我们不止关心文章的数量,更关心文章的质量。 

图片 5

图6  BGISEQ平台发表文章示例

*上述分析结果由华大信息分析流程所得,分析结果不代表交付指标,最终解释权归深圳华大基因股份有限公司所有


参考文献

[1]    Drmanac R, Sparks A B, Callow M J, et al. Human genome sequencing using unchained base reads on self-assembling DNA nanoarrays.[J]. Science, 2010, 327(5961):78-81.

[2]    Jie Huang, Xinming Liang, Yuankai Xuan, et al. A reference human genome dataset of the BGISEQ-500 sequencer. GigaScience, 2017.

[3]     Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137

[4]    Han F, Wu Y, Narzisi G, et al. Reducing INDEL calling errors in whole genome and exome sequencing data[J]. Genome Medicine,6,10(2014-10-28), 2014, 6(10):89.


案例1    BGISEQ-500 测序仪的参考人类基因组数据集[1]

A reference human genome dataset of the BGISEQ-500 sequencer

合作单位:华大基因、国家食品药品监督管理总局(NIFDC)和国家食品药品监督管理局湖北医疗器械质量监督检验中心

研究概要:与公开发布的HiSeq2500人全基因组重测序(WGS)数据分析比较,BGISEQ-500测序平台在比对与变异检测方面与HiSeq2500表现出较高一致性。

研究策略:

样本:“瓶中基因组”联盟发布的人类细胞系HG001(NA12878)

测序:BGISEQ-500 PE100、PE50;Illumina HiSeq2500 PE150

分析:采用相同分析、统计方法,对两平台的数据质量、比对结果、变异检测等进行比较

研究结果:

  • 两个平台都具有较高的碱基质量分布和较相似的GC含量分布

        对原始FASTQ数据使用相同的条件进行数据过滤,从过滤后的数据显示BGISEQ-500和HiSeq2500两个平台都具有较高的碱基质量分布和较相似的GC含量分布。

图片 7

图1  数据质量比较(a.read1碱基质量分布;b. read2 碱基质量分布;c. PE50, PE100, HiSeq总体碱基质量分布;d. PE50, PE100, HiSeq GC含量分布。)


  • 两个平台具有较高的比对率和相似的覆盖度和错配率

        研究人员还使用常规的BWA + GATK流程对BGISEQ-500 PE100、PE50以及HiSeq2500 PE150数据进行比对和变异检测,与HiSeq2500平台相比,两组数据都具有较高的比对率和相似的覆盖度和错配率,此外,两个平台也展示出有较好的基因组覆盖度。

表1   比对统计

Metrics

BGISEQ-500 PE50

BGISEQ-500 PE100

HiSeq2500 PE150

Clean reads

2,378,725,921

1,136,008,901

708,941,148

Clean bases (bp)

118,936,296,050

113,600,890,100

104,923,289,904

Mapping rate

97.87%

99.22%

99.05%

Unique rate

93.17%

96.47%

97.06%

Duplicate rate

6.26%

2.47%

1.52%

Mismatch rate

0.34%

0.58%

0.56%

Average sequencing depth

37.57

37.44

34.52

Coverage

99.28%

99.12%

99.06%

Coverage at least 4×

98.90%

98.69%

98.60%

Coverage at least 10×

97.97%

97.81%

97.83%

Coverage at least 20×

95.78%

96.06%

94.81%

 

  • 两个平台SNP变异检测具有相似的灵敏度,阳性检出率,假阳性率和假阴性率

    在变异检测方面, BGISEQ-500 PE100与HiSeq2500 PE150具有相似的灵敏度、阳性检出率、假阳性率和假阴性率。

表2  变异评估统计

Variant type

Metrics

BGISEQ-500 PE50

BGISEQ-500 PE100

HiSeq2500 PE150

SNPs

True Positive

3,006,132

3,071,579

3,084,449

False Positive

15,203

6,907

4,318

False Negative

186,825

121,379

108,508

Precision

99.50%

99.78%

99.86%

Sensitivity

94.15%

96.20%

96.60%

FPR

0.00060%

0.00020%

0.00017%

FNR

5.85%

3.80%

3.40%

 

研究意义:

        从变异检测结果看,BGISEQ-500平台数据与HiSeq2500平台相差不大,证明新测序仪可以用于各种科研与临床应用。随着新技术的研发,BGISEQ-500的测序质量、速度以及通量仍有较大的提升空间,测序读长、不同插入片段以及分析软件的研发必将提升数据的整体表现。同时,BGISEQ-500测序仪可用于转录组、表观基因组、宏基因组等测序。

 

案例2    BGISEQ-500和HiSeq X Ten全基因组测序鉴定生殖细胞和体细胞变异[2]

Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing

合作单位华大基因、西澳大利亚大学医学和药理学院、澳大利亚医院呼吸科等。

研究概要:使用BGISEQ-500平台对三种恶性胸膜间皮瘤及其对照的正常样本进行全基因组测序,并与Illumina HiSeq X Ten平台测序结果进行评估。两平台数据均使用相同的分析流程,分别比较生殖细胞和体细胞单核苷酸变异(SNP)、小插入或缺失(InDel)。结果表明BGISEQ-500平台通过全基因组测序来鉴定肿瘤样本的体细胞和生殖细胞突变是有潜力的可适用性的平台,这也是该平台首次公开可用的癌症基因组数据。

研究策略:

取材:三种恶性胸膜间皮瘤及其对照的正常样本

测序:BGISEQ-500;Illumina HiSeq X Ten

分析:比较生殖细胞和体细胞单核苷酸变异(SNP)、小插入或缺失(InDel)

研究结果:

  • 生殖细胞突变:     

结果显示BGISEQ-500平台和HiSeq X Ten平台识别SNP的能力与SNP分型芯片(Infinium Omni2.5–8, Illumina )是高度一致的(> 99%)。在两个测序平台中鉴定的生殖细胞SNV和indels也是高度一致(分别为86%和81.5%)。

表3  SNP芯片数据分别与BGISEQ-500和HiSeq X Ten数据比较,生殖细胞突变基因型一致性的百分比

图片 8

        在3个样本数据总10,686,962个生殖细胞SNV中, BGISEQ-500和HiSeq X Ten平台特有的SNV突变比例分别为0.36%和1.85%,699,321个生殖细胞indels中,BGISEQ-500和HiSeq X Ten平台特有的indels比例分别为0.19%和3.23%,具体比例如下图表所示。

图片 9

图2  利用BGISEQ-500和HiSeq X Ten的数据,鉴定3个胸膜间皮瘤的生殖细胞突变

  • 体细胞突变:

        三名患者中总共10,890个体细胞SNV,大部分体细胞SNV(72%)在两个平台中被识别,小部分为BGISEQ-500和HiSeq X Ten两平台特有的(分别为14%,14%)。只有38%的indels可以同时被两个测序平台识别,BGISEQ-500和HiSeq X Ten分别特有的为38%和14%。和SNV分析相比,体细胞indels突变有较高的不一致性,具体比例如图所示。

图片 10

图3  利用BGISEQ-500和HiSeq X Ten的数据鉴定3个胸膜间皮瘤的体细胞突变

        共有156个体细胞突变(141个SNV和15个indels)位于基因编码区。 其中,在两个测序平台中共同鉴定出109个编码突变(70%),包括已知的间皮瘤驱动基因BAP1,仅在 BGISEQ-500和HiSeq X Ten分别独有的突变为20和27个。


  • 讨论与结论:

        使用BGISEQ-500和HiSeq X Ten测序平台对三个间皮瘤患者的癌症和对照的正常DNA进行了测序,结果显示大部分突变均可以通过两个测序平台进行鉴定。

        两个平台分别特有一小部分变异的差异是由多重因素导致的,一个关键因素是两个平台(BGISEQ-500平台50bp和HiSeq X Ten平台150bp)之间读长的差异,比对分析使用BWA-MEM,是基于Burrows-Wheeler Aligner算法开发的,此算法专门针对读长大于70bp而设计。


研究意义:

        这篇文章的BGISEQ-500数据是平台进行的首次公开可用的癌症基因组测序。尽管BGISEQ-500平台是早期PE50的数据,但两平台生殖细胞突变基因型与SNP芯片分型结果高度一致(>99%),且在检测生殖细胞和体细胞SNV和插入缺失的能力方面都表现出很高的一致性。本篇文章的研究人员也对肿瘤样本在BGISEQ-500平台上进行PE100测序,并与HiSeq X Ten平台进行比较,数据结果近期将发表高分文章(IF>25)。

 

案例3    基于DNB的测序平台可有效避免index hopping[3]

Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform

合作单位:华大基因、Complete Genomics Inc等

研究概要:

        使用三种主要的文库制备方法研究了DNB测序平台的Index hopping问题。BGISEQ测序仪利用独特的DNA纳米球(DNB)技术,基于滚环复制(RCR)进行文库扩增,这种线性扩增可以避免常规PCR带来的错误累积。基于DNB的NGS应用仅使用单个index就实现了前所未有的0.0001%至0.0004%低样本错误分配率。此外,用水代替DNA,加入index,增加空白对照,DNB测序平台发生错误匹配的概率为36 million reads分之一,即0.0000028%。

index hopping

图4  不同测序技术的index hopping比例

研究结果:

  • DNA纳米球技术的高index保真度

        BGISEQ平台将DNB加载到规则阵列(patterned arrays)上,并利用组合引物锚定测序技术(cPAS)进行测序。 独特的DNB技术采用具有强链置换活性的Phi29聚合酶和能够进行线性扩增的RCR工艺,每个扩增循环都以原始的单链环状DNA文库为模板,保持每个拷贝子的独立性(图1a)。因此,即使出现寡核苷酸的index hopping等错误,也不会累积错误拷贝,正确的序列总是会在后面的DNA拷贝中复制,保证最高的扩增保真度。

index hopping2

图5  Index hopping在不同的测序平台产生的机制

  • 信号外溢造成极少的index hopping

        Index污染可以通过实验操作、PCR错误、测序错误、寡核苷酸合成错误引入。为了检测BGISEQ平台极少index hopping的原因,我们首先找到那些出现错配的DNB,调查其测序质量。平均而言,无index hopping的DNB与相邻DNB共享相同index序列的概率为20.21%,存在index hopping的DNB共享相同index 的概率则为57.04%。该结果表明相邻DNB的信号外溢造成了index hopping。而对于这种情况,index的测序质量通常偏低,我们可以通过Q30>60%来降低因此产生的index hopping。

  • PCR-free文库index hopping污染率极低

        除了常规PCR文库外,文中还对PCR-free文库在BGISEQ平台的index hopping情况进行调查,未经过任何Q30过滤的99.9998%精度再次证实了DNB可以在很大程度上最小化index污染。与上面的常规PCR文库类似,污染率平均约为0.0004%。

表4  PCR-free 文库index污染比率

PCR-free2

研究意义:

1、  高的检测准确度,保证体细胞低频突变、HPV检测等基因检测的准确性;

2、  Single index避免了繁琐的non-combinatorial dual index带来的额外成本和劳动力浪费;

3、  避免大通量测序中样本数据完整性的丢失。


参考文献

[1]    Jie Huang, Xinming Liang, Yuankai Xuan, et al. A reference human genome dataset of the BGISEQ-500 sequencer. GigaScience, 2017.

[2]     Patch A M, Nones K, Kazakoff S H, et al. Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing.[J]. Plos One, 2018, 13(1):e0190264.

[3]     Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137


1、标准品数据展示

        测试样本选用了“瓶中基因组(Genome in a Bottle)”的人类样本NA12878,这是目前被世界上认为研究最透彻的二倍体人类基因组,并发布了高置信变异集,可作为一个重要工具来了解测序仪和检测结果的表现。X测序平台的数据为I 公司官网下载的数据,并且,两个平台的分析均严格采用了GATK Best Practices推荐的流程进行分析。


  • 高测序数据质量

        从碱基质量图也可以直观感受到,大部分(红色)的碱基的质量值(Q值)都高于35。我们的测试数据有至少96%的碱基识别准确率为99%,至少85%的碱基识别准确率为99.9%。

Q20>96%,Q30>85%

图片 11 

图1   BGISEQ PE100测序数据碱基质量图                     图2  BGISEQ PE100测序的碱基分布图

        测序质量值可衡量碱基未正确检出的概率。测序技术,一种类phred算法[1][2]会为片段中的每个碱基分配一个质量分值,与最初因桑格测序实验而开发的算法类似。

        一个给定碱基的测序质量分值Q定义为下面的等式: Q = -10log10(e) 其中,e为预计碱基检出不正确的概率。如下所示,质量分值20表示错误率为1/100,相应的检出精确度为99%。

表1  标测序质量分值与碱基检出精确度的关系

图片 12 


  • 高比对率和覆盖度

        应用人的标准品NA12878,分别在BGISEQ和X测序两个平台上测了100Gb数据和110Gb数据。从下表可以看出,即使BGISEQ测序平台上少测了10%的数据,整体表现仍然非常优秀。

表2  BGISEQ与X测序平台的数据对比

Platform

BGISEQ平台

X测序平台

Clean bases (Mb)

100,163

110,083

Mapping rate (%)

99.47 

96.52

Unique rate (%)

94.33

85.14

Duplicate rate (%)

1.77

11.76

Mismatch rate (%)

0.53

0.56

Average sequencing depth (X)

33.02

31.57

Coverage (%)

99.10

98.95

Coverage at least 4X (%)

98.62

98.43

Coverage at least 10X (%)

97.68

97.24

Coverage at least 20X (%)

93.09

91.45

Clean bases:过滤掉接头,低质量和含N的reads后剩下的碱基数量;

Mapping rate:碱基比对率,比对到参考基因组的碱基数目除以clean data的碱基数目,如果测序样本存在污染或者与参考基因组差异较大,比对率偏低会影响后续的信息分析;

Unique rate:比对到基因组上唯一位置的base比率,一条reads在相同数量的容错时会有两个或者两个以上的位点都吻合,那么,它的比对结果不唯一。对于某些下游分析,需要去除比对多个位点的reads,只保留唯一比对的reads;

Duplicate reads:重复的 reads 所占比例,为了保证后续变异分析的准确性,会去掉duplicate reads后进行下游信息分析,相同数据量重复率越低,后续可用的数据量越多;

Mismatch rate:碱基的错配率;

Average sequencing depth:有效平均深度(不计算duplication),比对到参考基因组的碱基数目除以基因组的大小;目前行业对外承诺的30X(90G)、40X(120G)等深度只是测序量的简单换算,并不是指有效深度。

Coverage at least 1X(4X、10X、20X):覆盖率,指测序深度达到1X、4X、10X、20X以上的全基因组占比。


  • 高灵敏度和精准度

        高灵敏度(Sensitivity)和高精准度(Precision)意味着BGISEQ平台检测发现变异的能力更强,并且结果中为真的突变的概率也高。BGISEQ平台与X测序平台SNP和InDel精准度和敏感度相当。

表3   BGISEQ平台与X测序平台变异精准度和敏感度比较

Sequencer

SNP

InDel

Total SNPs

PPV

Sensitivity

Total InDels

PPV

Sensitivity

BGISEQ

3482838

99.94%

96.21%

823627

97.62%

93.23%

X测序平台

3499428

99.89%

96.34%

656186

96.55%

90.32%  

Sensitivity:灵敏度,又叫真阳性率(TPR),计算公式:灵敏度=真阳性/(真阳性+假阴性)。是指实际为阳性的样本中,判断为阳性的比例。例如,真正突变中,被判断为有突变的比例,它反映筛检发现变异的能力,灵敏度越高,假阴性越低;

Precision:精准度,也叫阳性预测值(PPV),计算公式:精准度=真阳性/(真阳性+假阳性),指筛检试验检出的全部阳性变异中,真正“变异”的例数(真阳性)所占的比例,反映筛检变异结果阳性中为真的突变的可能性,精准度越高,假阳性越低。


  • 高变异结果一致性

        两个平台SNP,InDel检测一致率分别高达94.06%和86.74%,说明了结果的高一致性。而对于那一小部分不一致的结果进行分析,发现精准度更高。

图片 13 

图3  BGISEQ平台与X测序平台SNP一致性对比           图4  BGISEQ平台与X测序平台InDel一致性对比

 

2、已交付商业样本数据展示

        目前华大基因已成功交付上万例高质量的BGISEQ平台 WGS数据,并得到了海内外业界高度认可。其中包括贝勒医学院(Baylor College of Medicine)、华盛顿大学(University of Washington)、斯坦福大学(Stanford University)、麻省理工(Massachusetts Institute of Technology)等早期参与人类基因组计划(Human Genome Project, HGP)的主要单位,以及牛津大学(University of Oxford)、梅奥诊所(Mayo Clinic.)、康奈尔大学(Cornell University)、费城儿童医院(CHOP)、德国癌症研究中心(German Cancer Research Center)、中南大学湘雅医院、同济医院、清华大学等上百家全球知名科研单位参与平台测试。通过对不同样本类型测试和不同测序平台比较,均获得较高的数据质量结果。在这里我们随机统计了去除样本背景信息后的1,355个样品下机数据,统计具体的质量表现。


  • 样本类型适用广泛

        BGISEQ平台 WGS数据来源样本种类多样,其中包含福尔马林固定石蜡包埋( Formalin Fixed and Paraffin Embedde,FFPE)样品、单细胞样品、血液样品、基因组DNA样品、唾液样品、常规冷冻保存的新鲜组织样品等,不同样本类型均有较高的交付成功率,基于BGISEQ平台交付的样本中,常规基因组建库测序成功率高达99%,对于降解样品如FFPE等,建库测序成功率也高达90%以上。

 图片 3

图5  BGISEQ平台 WGS不同类型样品交付成功率

 

  • 单lane数据产量高

        对随机挑选的1,355条lane BGISEQ平台 WGS PE100数据进行统计,单lane平均产量高达140Gb Raw data。

图片 24 

图6  BGISEQ平台 WGS PE100单lane产量 

 

  • 数据利用率高

    随机统计了1,100条lane的BGISEQ平台 WGS PE100下机数据,利用率平均高达99%。

 图片 25

图7   Clean data比率

  

  • 测序数据质量优

        对随机挑选的1,355条lane BGISEQ平台 WGS数据质量值进行统计分析,下机Raw data Q20平均值为96.16%,Raw data Q30平均值为87.86%。

 图片 1

图8  碱基质量分布

 

  • GC含量稳定

        对该1,355条lane数据的GC含量进行统计分析,平均GC含量为41.69%, GC含量稳定,没有偏向性。

 图片 26

图9  GC含量分布

*上述分析结果由华大信息分析流程所得,本结果不代表交付指标,最终解释权归深圳华大基因股份有限公司所有

 

        华大基因作为全球领先的基因组学研究中心及临床解读中心,推出的自主研发的BGISEQ平台 30X WGS测序在成本和技术上极大的促进了基因组学的快速发展,使基因组学真正的进入了百元基因组时代。BGISEQ平台见证了人类基因组计划以来一个新时代的开启,将推动以基因测序作为支撑的生命科学、生物产业甚至生命经济蓬勃发展,以其低廉的成本、高质量、高通量的测序平台,真正实现人类基因组计划以来科学家们的梦想和希望!


参考文献:

[1]    Ewing B, Hillier L D, Wendl M C, et al. Ewing B, Hillier L, Wendl MC et al.Base-calling of automated sequencer traces using PHRED. I. Accuracy assessment. Genome Res 8:175-185[J]. Genome Research, 1998, 8(3):175-185.

[2]    Ewing B, Green P. Base-calling of automated sequencer traces using phred. II. Error probabilities[J]. Genome Research, 1998, 8(3):186-94.

[3]    Carrick D M, Mehaffey M G, Sachs M C, et al. Robustness of Next Generation Sequencing on Older Formalin-Fixed Paraffin-Embedded Tissue[J]. Plos One, 2015, 10(7):e0127353.


表1  DNA样本送样建议

样本类型

总量

浓度

完整性(胶图)

纯度

Genomic DNA

≥1μg

≥12.5ng/μL

主峰>20Kb

无蛋白,RNA/盐离子等污染,样本无色透明不粘稠

 

表2   组织样本送样建议

组织类型

需求量

新鲜培养细胞 (细胞数)

≥5×106cell

新鲜动物组织干重

≥50mg

新鲜植物组织干重

≥200mg

全血(哺乳动物)

≥1 mL

全血(非哺乳动物)

≥0.5mL

菌体 (细胞数或干重)

≥5×106cell or ≥200mg

FFPE

≥ 10 片,未染色,100 mm25 ~ 10μm厚度


Q1:BGISEQ-500人全基因组重测序的数据格式是否与Illumina平台的一致?

是一致的,所以信息分析流程都一样。 

Q2:想对我们BGISEQ-500产出的数据先分析确定一下格式和数据质量,现在是否有测试过的数据可以提供?

BGISEQ-500 demo数据已经上传至EBI,可以访问并下载,链接如下:

RNA:http://www.ebi.ac.uk/ena/data/view/PRJEB19428 

WGS:http://www.ebi.ac.uk/ena/data/view/PRJEB19427 

WES:http://www.ebi.ac.uk/ena/data/view/PRJEB19426

Q3:华大内部数据库PVFD和BGI-GaP是什么?

 PVFD数据库在千人基因组第一阶段数据库的基础上,主要添加了东亚人群尤其是中国汉族人突变频率数据,进一步丰富东亚人群(中国人)突变频率数据。

BGI-GaP数据库包括BGI内部数据库在内的35个数据源的基因型-表型(突变-疾病)关系信息,主要是种族、地域、生活史、原始数据库名称、变异位点、变异类型、变异所在基因、疾病信息、已发表文章等信息,有助于发现特定疾病与遗传因素、健康状况、生活方式等的关系。注意:目前这两个数据库只提供SNP数据,未来升级后会添加InDel数据。

Q4:如何实现基因组变异可视化?

基因组可视化软件 IGV(Integrative Genomics Viewer)是高性能的基因组数据可视化工具,能够帮助使用者同时合并分析不同类型的基因组数据,并能灵活放大基因组上的某个特定区域。IGV 软件免费下载地址: http://www.broadinstitute.org/igv. IGV 可查看 SAM / BAM 比对文件和 VCF 变异检测文件,下图显示的是 IGV 可视化窗口。

图片 27

图1   IGV可视化窗口示意图

Q5:如何寻找候选变异?

寻找候选变异位点时,可利用变异注释结果,关注非同义突变、剪接突变、移码突变。1)去除千人基因组数据库中 MAF >=1% 的变异2)去除 NHLBI-ESP6500 European American 群体数据库中 MAF >=1% 的 变异 3)去除 NHLBI-ESP6500 African American 群数据库中 MAF >=1%的变异4) 推 测 变 异 的 致 病 性 。 利 用 SIFT/PolyPhen2/Mutation assessor/Condel/FATHMM 进行打分,预测某个变异和氨基酸置换是否影响蛋白 功 能 。 如 果 score<=0.05 或 PolyPhen2>=0.909 或 MA score>=1.9 或 Condel = deleterious 或 FATHMM=deleterious,就推测该变异可能是有害变异。

Q6:SNP 筛选所使用的数据库有哪些,怎么筛选?

数据库: dbSNP 、 HapMap8、 1000 Genomes 一般情况下,我们都采用以下过滤标准: 1、质量值不低于 20; 2、覆盖深度不低于 4; 3、两个相邻 snp 之间的距离不小于 5,如果样本深度很高(>50X),可以提高过滤条件。

Q7:一般用什么方法来验证 call SNP 准确率?

华大炎黄计划是用 Sanger 测序的方法和芯片分型两种方法来验证 SNP 的准确性的, 因为 Sanger 测序被认为是测序中的“金标准”。 

Q8:唾液采集的方法?

使用DNA Genotek公司的 Oragene•DISCOVER (OGR-500) (For Research) 或 Oragene•Dx (OGD-500) (For Diagnostics) collection kit.保存量及操作方法详见产品说明书,按照说明书操作保存运输样品。

Q9:突变位点为有效位点时使用的 depth 阈值是多少?

GATK在call变异时SNP和InDel均要求depth大于等于4 。

Q10:数据中的 Duplicates 指什么?如何定义?有何影响?

一般情况下,测序得到了两对或两对以上的pair end reads同时比对到参考序列上相同的起始和结束位置,我们定义这种序列为duplicates。

在数据分析过程中,为了确保变异分析的准确性,避免计算存储资源的浪费,一般会通过生信的方法去掉Duplicate reads后再进行下游信息分析。

但这么做,至少会带来以下2方面的问题:

1、 数据量浪费

越高的duplicates比例,为此而浪费的数据量就越大。按照illumina平台为例,普遍的duplicates比例大约在10%左右。也就是花了100G data的钱,有用的只有90G左右。

2、 对于RNA-Seq,无法去除

对于RNA来说,因为难以区分是PCR duplicates还是RNA高表达形成的相同的模板,则无法去除duplicates。从而影响转录组表达量的准确性,尤其是小和中等表达量的转录本的准确性。


深圳华大科技(总部)

电话:400-706-6615
邮箱:info@genomics.cn