Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean
Nature Biotechnology,2015.04
一、 研究背景
大豆是具有很大经济价值的农作物,在全球的油料生产中占一半以上的比例。早在5000年前的中国,人们就开始将野生大豆进行驯化,使野生大豆变为耕作的农作物,之后引入到其他国家。人们往往只将有限数量的优良品种用于培育下一代,极大地降低了基因多样性,同时,全基因组基因多样性的研究以及对有利于品种改良的基因的判定对选育更优良品种至关重要,为此,来自中国科学院遗传与发育生物学研究所以及中国科学院昆明动物研究所等团队共同合作,对302个大豆基因组进行重测序,研究大豆在改良过程中基因组的动态变化,为进一步改良大豆的农艺性状提供了基础。对与重要农艺性状相关的基因进行定位,推动未来大豆品种选育。
二、研究方法与结果
1.基因组变异
用于重测序的302个大豆基因组包括62个野生型大豆(G. soja),130个本地品种和110个改良品种。这些样本的地理分布见图a,包括中国、韩国、日本、俄罗斯、美国和加拿大。

将重测序的302个大豆基因组映射到82个参考基因组上,发现9,790,744g个SNP位点以及876,799个插入缺失位点(≤6bp)。考虑到野生和驯化大豆的基因多样性,研究者用之前报道过的G. soja特定基因序列作为参考基因组,将重测序基因重新映射。野生大豆映射到G. soja上的比率要高于驯化大豆与改良大豆。另外,G. soja上与一半的与抗性相关的基因在驯化大豆和改良大豆中丢失。
2.大豆群体结构和连锁不平衡
使用Medicago truncatula(蒺藜苜蓿)作为外群,研究者进行全基因组SNP分析,进一步分析这302个大豆基因组的系统发生关系,图b。



通过系统发生树可以看出,几乎所有的野生株聚为一类(group 0)。同时,结合PCA分析(图c),可以说明最近成熟的驯化大豆来自于一种单一的驯化事件。之后,将驯化株分为两大枝(group I, group II),group I偏向于驯化株,group II偏向于改良株。基因多样性从野生株到驯化株到改良株逐级递减,部分基因多样性在改良过程中丢失(Supplementary Table 2)。但是,大部分的基因多样性在改良过程中保留下来。驯化大豆组进一步分成不同亚枝(图b、d),发现它们表现出很强的地理分布模式,比如Group I被分为3个亚枝,group I-1主要分布在日本和韩国,group I-2和group I-3分别主要分布在中国南部与中国北部。

此外,不同的亚枝表现出不同的基因多样性和群体结构(下图a、b)。总之,group II的种内基因多样性要低于group I。

研究还显示,一些驯化大豆有混合祖先,这就表明,在育种过程中,这些植株曾发生过基因交流。
对于所有样本而言,连锁不平衡(LD,用R2表示)在420kb降到最大值的一半(下图a),但是在不同群体中的变化是不一样的。在基因的不同区域,LD值得下降程度是不同的。如图b,中心体附近的LD值要高于染色体臂。对每个染色体的1Mb连续区域进一步分析发现LD值与基因重组率呈负相关(图c)。


3.品种改良过程的选择信号
为了确定在驯化和改良过程中的选择信号,研究者使用似然法(XP-CLR)对基因组中等位基因频率存在显著差异的区域做基因扫描,发现121个驯化过程的选择性清除(图a)和109个改良过程的选择性清除(图f)。


除了SNPs外,CNVs也可以作为人工选择的靶点,研究者选择统计参数相对频率差差(RFD)来分析CNVs,发现在驯化和改良过程中存在162个选择的CNVs(图i)。

自2011-2013年,研究者对于实验样本驯化相关的形态特征进行观察和记录,比如株高、花色、粒重、种皮颜色等。随后,研究者关于这些性状做了GWAS,结果显示,与茎的坚韧性及粒重相关的基因分别定位于之前报道的Chr.19的DT I上(见上图e)和Chr.17的qSW上(见上图d)。除了之前已经发现的基因定位以外,研究者还发现两个新的与种皮颜色相关的GWAS信号(下图c),五个和绒毛形成相关的GWAS信号(下图d)以及一个和花色相关的GWAS信号(下图e)。另外,研究者利用CNV数据做GWAS分析,有利于直接判断与抗孢囊线虫和种脐颜色相关的基因(上图l)。有趣的是,这些信号都经历了驯化过程的选择作用。与种脐颜色相关的GWAS信号位于Chr.18上,与查耳酮合酶基因簇恰好重合(上图j)。



4.与含油量相关的基因
除了形态性状的不同,驯化种和野生种的种子含油量也有很大不同,野生大豆含油量低。导致含油量差异的原因可能是在大豆育种的过程中,对控制油生物合成的基因发生正选择作用。一些与含油量相关的基因QTL位点之前已经被报道过。将与含油量相关的QTL位点与前面提到的230个选择性清除位点进行比较,发现了53个驯化选择性清除位点和43个改良选择性清除位点定位于已知的QTL位点区域。对脂肪酸合成基因的修改可以调节含油量,研究者还定位了21个和脂肪酸合成相关基因,且有10个与QTL位点重合。
为了进一步确认与含油量相关的选择性区域,研究者选用175个有含油量记录的大豆株做GWAS分析,并发现6个很强的GWAS信号(下图b),其中的5个与以前报道的QTL位点重合,1个是本次研究新发现的。可以确定的是,在这6个GWAS信号中,有两个分别位于Chr.13和Chr.3上,且与驯化选择清除位点重合。这些结果对于控制大豆含油量的基因的功能特征研究很重要。

5.地方育种和相关性状
上面的系统发育分析显示,遗传基因相似的驯化种,地理来源也很相近。通常,大豆在北方的成熟期比南方短,研究者计算了不同地理来源的成对群体差异水平(Fst),发现在中国南部和美国及加拿大这两个群体中,E1基因附近表现出很强的信号(下图a),进一步研究表明,突变基因主要发生在高纬度地区,比如美国、加拿大,中国北部等,这与不同地区的成熟期不同也是一致的。 此外,一些经过驯化和改良的性状在地理差异分析中也被发现,比如Ln突变基因主要分布在中国北部和东北部(下图b)。


三、 文章亮点
1. 对大规模群体做基因组和GWAS分析,并成功描述出与改良相关性状的基因
2. 缩小了一些主要性状的选择性清除区域
3. 为大豆育种提供可利用资源
四、 文章应用与启示
1.定位驯化选择基因选择方案: 大规模群体+基因组+GWAS,定位重要农业性状相关基因
2.改变传统育种模式,在改良品种的同时,保持基因多样性
3.全基因组基因多样性的研究以及对有利于品种改良的基因的判定对选育更优良品种至关重要
4.对大豆在改良过程中基因组的动态变化进行研究,为进一步改良大豆的农艺性状提供了基础
5.对与重要农艺性状相关的基因进行定位,推动未来大豆品种选育
五、 摘要
Understanding soybean (Glycine max) domestication and improvement at a genetic level is important to inform future efforts to further improve a crop that provides the world’s main source of oilseed. We detect 230 selective sweeps and 162 selected copy number variants by analysis of 302 resequenced wild, landrace and improved soybean accessions at >11× depth. A genome-wide association study using these new sequences reveals associations between 10 selected regions and 9 domestication or improvement traits, and identifies 13 previously uncharacterized loci for agronomic traits including oil content, plant height and pubescence form. Combined with previous quantitative trait loci (QTL) information, we find that, of the 230 selected regions, 96 correlate with reported oil QTLs and 21 contain fatty acid biosynthesis genes. Moreover, we observe that some traits and loci are associated with geographical regions, which shows that soybean populations are structured geographically. This study provides resources for genomics-enabled improvements in soybean bre