Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing. Nature Communications (2016.07) IF = 11.329
玉米(Zea mays)是全球重要的农作物,也是研究植物转录组代谢通路的遗传模型。玉米基因组序列于2009年公布,后续利用EST和RNA-Seq转录组数据对其基因注释进行了补充。然而RNA-Seq中,短读长无法提供转录本全长序列,限制了可变剪接形式的鉴定,同时,短读长拼接会得到错误的转录本。
近期,来自冷泉港实验室等单位利用PacBio长读长测序技术,对玉米6个组织进行了全长转录组测序分析,在已有的玉米B73 RefGen_v3上发现了大量新信息,揭示了玉米基因表达的复杂性。
研究材料: 取玉米自交系B73不同发育阶段的6个组织(根、花粉、胚芽、胚乳、幼雌穗、幼雄穗),提取mRNA, 反转录过程中加组织特异性barcodes,按照等摩尔比值cDNA平均混合。
建库测序:构建6种插入片段文库(<1,1–2, 2–3, 3–5, 4–6 和>5 kb)后,加上序列特异性的barcode,上机46个SMRT Cell进行全长转录组测序。对6个组织进行二代RNA-Seq测序,每个样品三个重复。
研究方法:通过已发表的甲基化数据,对isoform,lncRNA 和 non-lncRNA区域进行甲基化分析。
研究结果:
1.下机得到了3,716,604条reads,过滤得到接近一半的全长转录本序列(1,553,692,42%)。ToFu处理得到643,330个高质量的转录本序列,其中606,145个序列(94.2%)能够比对到玉米RefGen_v3参考基因组上。
2.经聚类分析得到了111,151个isoform,对应26,943个基因,涵盖了玉米RefGen_v3基因注释的70%。其中57% isoform来自已知基因位点的新isoform;2,803个 (3%) 新isoform来自2,253个新位点(Fig. 1)。
![全长转录组测序 全长转录组测序]()
![全长转录组测序 全长转录组测序]()
Fig. 1 PacBio 和RefGen_v3的isoform比较
3.在不同生长发育阶段的6个组织中,花粉具有最多的组织特异性isoform(9,842,61.3%),其次是胚芽(20,050,49.2%),再次是胚乳(12,392,46.7%),根的isoform最少(13,386,44.6%) (Fig. 2)。GO 分析表明,这些组织特异性isoform,通常与组织特定的分子功能相关。
![全长转录组测序 全长转录组测序]()
Fig. 2 6种不同组织的所有PacBio Isoform
4. 玉米RefGen_v3中,已注释了来自57个家族的2,624个转录因子。在PacBio Isoform中发现了来自53个家族的新isoform,转录因子数量增至5,423个。其中155个新isoform与这些生长激素应答的功能相关。
5. 已有研究中有1,704个高度可信的LncRNA(平均长度为463bp)。本次分析得到了878个LncRNA,其中11个是已有研究确定的, 另外867个是新发现的LncRNA(平均读长为1.1kb)(Fig. 3)。
![全长转录组测序 全长转录组测序]()
Fig. 3 本次分析确定的新与已确定的lncRNAs 长度对比
6. 将PacBio isoforms与 Illumina短读长组装的isoform分析结果进行了比较,其中短读长数据运用两种分析方法(Cufflinks和Trinity)进行对isoform进行组装,能鉴定到PacBio的isoform分别仅为22%和8%,表明转录组短读长分析方法在检测isoform的局限性,而PacBio长读长能得到精确的isoform,尤其是在一个基因对应几种isoform的复杂情况下优势明显。
![全长转录组测序 全长转录组测序]()
Fig 4. PacBio的isoform对短读长组装构建的isoform评估
7. CHG甲基化主要富集在acceptor位点,CG甲基化主要富集在donor位点, donor位点的CG甲基化能够促进可变剪接,CHH甲基化与可变剪接病没有显著的相关性。同时,发现non-lncRNA genes具有相对较高的CG甲基化水平,而lncRNAs具有相对较高的CHG甲基化水平,这些甲基化水平可能与基因的不同表达水平有关。
PacBio 超长读长无需组装即可得到全长转录组信息,直接获得了isoform信息,解密玉米转录组复杂的基因表达信息。
参考文献
Bo Wang et al., (2016). Unveiling the complexity of the maize transcriptome bysingle-molecule long-read sequencing. NATURECOMMUNICATIONS.