10X Genomics公司的linked reads技术主要是利用液滴的方法,通过微流体平台,将带有条形码、索引分子、引物等的凝胶珠与单细胞混合,在每个液滴内开展单个细胞的逆转录反应,以产生测序所用的带有barcode信息的cDNA,进而构建标准文库、上机测序、生信分析(图1)。在分析过程中,通过barcode序列信息追踪来自每个大片段DNA模板的多个Reads,从而获得大片段的遗传信息。通过linked reads结合常规二代测序组装得到的Scaffold,可搭建准确度更长的Scaffold。


技术原理

图1 Linked Reads文库构建过程[1]


图2 GEMcode平台工作原理


技术优势

(1)微量样本:仅需1ng 基因组DNA 即可进行长片段建库;

(2) 精确分区:由于拥有众多的barcode和Partions,可对DNA进行精确分区;

(3) 长片段信息:该技术可与Illumina测序仪进行无缝对接,利用短Reads可获得长达100Kb的片段;

(4) 基因组组装质量提升:利用长片段信息结合Illumina组装数据组装的ScaffoldN50长度比单纯用Illumina方法提高十几倍。



                                                                                  Assembly size                                          ScaffoldN50



                           Illumina                                               2.79 Gb                                                    590 Kb



              Illumina+10X Genomics                                  2.81 Gb                                                     7 Mb 



      Illumina+10X Genomics+BioNano                          2.86 Gb                                                   33.5 Mb



                   Pacbio+BioNano                                       2.76 Gb                                                   31.1 Mb



表1 不同组装策略组装基因组大小和ScaffoldN50指标


案例分析

去年PacBio公司在《Nature Methods》上发表了SMRT测序组装人类基因组的成果,选用的样本是HapMap样品NA12878。采用Soapdenovo对人的基因组NA12878的Illumina short-reads进行拼接。去除小于3Kb的Scaffold,得到的ContigN50为11.1Kb,ScaffoldN50为590Kb,在此基础上利用10X GemCode平台对人的基因组NA12878进行文库制备,最终得到97X的linked reads数据,在原有的基础上加上linked reads对基因组进行组装,组装super-Scaffold(图3)。ScaffoldN50的长度由原来的590Kb延长到7.03Mb,Scaffold的数量也由原来的14,047减少到5,697个,ScaffoldN50长度提高了将近12倍。同时组装基因组的总长度也比原来有所提高,由原来的2.79Gb到现在的2.81Gb。从组装结果来看,不管是N50大小、组装长度还是scaffold数,10X Genomics的组装效果都要强于PacBio。另外该技术还可以和其他长片段测序技术(光学图谱)可以很好结合,如果在此基础上增加光学图谱的数据可使组装的Scaffold长度最长可达到99.96Mb(表2)。


图3 Linked reads 辅助基因组组装


表2 不同组装策略组装的Scaffold长度


为了验证组装的Scaffold是否正确,我们对组装序列与参考基因组进行比对,发现利用此方法组装基因组完整性达95.2%,远高于AllPATHS-LG的组装。同时为进一步验证组装的准确性,对组装序列的外显子进行比对发现95.7%的外显子在组装的新序列中。另外通过与参考基因组进行比对发现,在NA12878中存在14.3Mb的区域,这些区域在参考基因组中是不存在的,反映了不同人的NA12878和参考基因组的差异。以上结果表明利用10X Genomics linked reads方法能够显著提高Illumina short read组装的Scaffold的长度,而且组装的基因组具有较高的准确性。


参考文献:

[1] Zheng G X Y, Lau B T, Schnall-Levin M, et al. Haplotyping germline and cancer genomes with high-throughput linked-read sequencing[J]. Nature biotechnology, 2016.

[2] Mostovoy Y, Levy-Sakin M, Lam J, et al. A hybrid approach for de novo human genome sequence assembly and phasing[J]. Nature methods, 2016.