Genome and transcriptome of the regeneration competent flatworm, Macrostomum lignano
PANS,IF=9.423,2015.10
扁形虫基因组组装
研究背景:Macrostomum lignano因为其身体具有极强的自愈能力是研究干细胞再生及分化的重要模式物种(图1)。
![全基因组de nove测序 全基因组de nove测序]()
研究材料:一个M. lignano近亲繁殖 35代的DV1系
研究方法及测序策略:
纯三代20K文库测序80X + 二代小文库测序50X + 光学图谱测序150X-200X
二代小文库50X测序数据作用:用于调研图与后期三代基因组纠错
纯三代20K文库80X测序数据作用:用于兆级contig组装
光学图谱150-200X测序数据作用:用于组装纠错与super-scafflod组装
本研究中对一个M. lignano近亲繁殖 35代的DV1系首先进行了170X的二代测序,由于~75%的基因组由简单重复序列和转座子组成,组装后的基因组很碎,contig N50 只有222bp,最长的contig只有144kb。为了改善组装的结果,研究者增加了21X的PacBio数据,最终contig N50的长度达到了64Kb,最长的contig由114Kb延伸到了627Kb,contig N50的长度达到64Kb。
研究结果:将ESTs和BACs reads 比对与基因组比对,发现92%的ESTs和91%的BACs reads都以超过90%的相似度比对到基因组上;取部分只由二代数据组装的contig与只由三代组装的基因组比对,发现相似度超过99%,说明M. lignano组装结果的可靠性。
分析发现, 55%的contig的末端50%的碱基都是富含GA的简单重复,20-24碱基的重复占主导,串联重复的长度超过100bp,这些串联重复遍布整个基因组,因此尽管加入21X的Pacbio数据对基因组组装的改善程度仍然有限。
![全基因组de nove测序 全基因组de nove测序]()
二代测序覆盖圈图
串联重复被认为与CpG甲基化有关,但该研究中在M. lignano只检测到了低水平的甲基化。分析基因组的重复序列类型,发现目前已知的转座元件只占基因组的0.17%,而23,064种新型的重复序列占到了基因组的~51%,这些重复序列的平均长度为946bp,最长的达到了20Kb,这些新型的重复序列只有1,693个得到了注释,因此M. lignano基因组中可能存在大量的新型的转座子。研究者用248个保守真核基因与组装后的基因组比较,结果显示M. lignano基因区的组装结果较为完整,有19,794个基因获得了转录组数据支持。
![全基因组de nove测序 全基因组de nove测序]()
图2 M. lignano再生发生时不同时间内基因差异表达热图
Hox family 对于涡虫的器官再生至关重要,发现扁虫中有49个homeobox-containing基因,分为11大类。M. lignano中特异存在,在扁形动物门中的其他物种没有。在保留的homeobox-gene families中,Cdx , Dbx 和 Prrx 在再生中发挥了作用Hox1, NK2.2, NK2.1, Cdx, Irx, Meis, and Pknox家族有多个拷贝,并且大部分成簇分布。
![全基因组de nove测序 全基因组de nove测序]()