2024.11.04,中国农业科学院深圳农业基因组研究所周永锋团队在Nature Genetics上在线发表了题为Grapevine pangenome facilitates trait genetics and genomic breeding的研究论文。该研究构建了首个驯化葡萄Grapepan v1.0图泛参考基因组,成功消除了单参考基因组的偏差。

导读
葡萄(Vitis vinifera ssp. viniferaL.)是一种经济价值高的多年生果树,遍布94个国家,主要用于酿酒和食用。本研究构建了包含单核苷酸变异(SNP)、插入缺失变异(InDel)和结构变异(SV)的葡萄基因型图谱与重要育种性状的表型图谱。通过系统的群体遗传学与数量遗传学挖掘,解析了葡萄复杂农艺性状的遗传基础,定位了29个农艺性状相关的数量性状基因位点(QTLs)。此外,发现大部分SVs与SNPs不连锁,SVs对农艺性状缺失的遗传力有显著贡献。通过整合机器学习算法、基因型图谱、表型图谱和数量遗传学分析,该研究提出了葡萄多性状的全基因组选择育种模型,成功构建了葡萄全基因组选择育种体系。该体系将有效缩短育种年限、降低育种成本、提高育种效率,形成葡萄育种的新质生产力,为我国快速突破葡萄种业瓶颈奠定了基础。同时,这一研究的方法和模型也为其它多年生作物的遗传育种提供了参考和借鉴。

葡萄泛基因组参考图
研究人员使用了HiFi reads、Hi-C reads和超长纳米孔测序reads对九个具有代表性的二倍体样本进行测序,包括亚洲特有的野生种Vitis retordii和八种葡萄品种(七种鲜食葡萄和一种酿酒葡萄)。研究者对九个二倍体葡萄样本(包括野生种和栽培品种)进行了精细组装,获得了18个端粒到端粒(T2T)水平的单倍型基因组。研究团队进一步整合新组装和已发表的基因组,成功构建了葡萄图形泛参考基因组(Grapepan v1.0),其总长度达到1.43 Gb,是现有单参考基因组的2.88倍。通过泛基因组,共检测到236,449个可靠的结构变异。这项研究通过构建图形泛基因组,能够更广泛地覆盖并整合葡萄中的遗传变异,为更深层次研究葡萄的遗传基础及育种提供了宝贵资源。


基于Grapepanv.1.0的葡萄种群结构
研究者通过全基因组SNPs分析了葡萄间的遗传联系。在466个葡萄样本中,种群结构分析揭示了三个主要物种或亚种:V. labrusca、V. vinifera ssp. sylvestris和V. vinifera ssp. vinifera。
进一步分析显示,V. vinifera ssp. vinifera的现代品种在ADMIXTURE和PHATE分析中分为三类:欧洲和中东的酿酒品种(Wine)、欧洲和东亚的鲜食葡萄(Table1),以及与V. labrusca杂交的鲜食葡萄(Table2,V. labrusca × V. vinifera)。Wine组的identity-by-state值较高(0.82),表明它们有长期共享基因组片段的历史。Table2组由于近期杂交,identity-by-state值较低(0.79),与其他组相比,隐性有害负担较低,杂合负担较高。这些结果支持Table2葡萄的旺盛表型,因为它们的有害负担由于杂交而在杂合状态下被掩盖。
研究者还评估了Wine和Table1组内SNPs和SVs的连锁不平衡(LD)衰减情况。LD在各组中迅速衰减,且SVs之间的衰减更为迅速。这种快速衰减可能反映了SVs通常以低频率出现的事实。然而,SVs和SNPs之间LD的快速衰减表明,葡萄基因组中数量性状的遗传性可能部分隐藏在SVs中。

GWAS在复杂农艺性状中的应用以及SV的重要性
构建葡萄育种的基因组变异图谱与重要性状图谱:该研究基于图形泛参考基因组和466份重测序数据,绘制了葡萄群体基因组变异图谱,共鉴定到8,591,919个点SNPs、513,969个短的插入(Indels)和236,449个SVs。同时,为构建葡萄重要性状图谱,研究人员对上述的324份栽培葡萄的29 个关键农艺性状进行了连续两年(2016和2017年)的观测收集,这些性状涉及果穗大小、浆果内含物、浆果性状、浆果大小和浆果果皮等五大类。结果表明,不同性状之间存在一定的关联性。例如,在浆果内含物方面,果糖 (Fru)、葡萄糖(Glu)和可溶性固形物 (SSC)之间呈显著正相关(P < 0.001)。这些性状之间的相关性表明它们可能共同受到某些基因座的调控,这为基于全基因组选择的多性状优良葡萄育种提供了重要的理论依据。


研究者利用Grapepan v.1.0对两年的表型数据进行了SNPs和SVs的GWAS分析。分析发现,共有148个位点与农艺性状显著相关,包括136个由SNPs确定的基因组区域和12个由SVs揭示的区域。

这些相关区域总共覆盖了27.61 Mb的基因组(约占5.58%),与至少29个农艺性状中的一个有关联。在148个候选区域中,约17.57%(26个)与先前功能研究确定的位点重叠。例如,基于SNP数据集,作者在Chr18(31.41-31.45 Mb)检测到一个与葡萄无籽或种子性状相关的位点,该区域包含MADS-box基因(AGL11),负责受精后胚珠发育成种子。同样,作者鉴定了BL1位点的95-bp缺失,与葡萄浆果长度显著相关,这个变异位于Vitvi011427的外显子区域,编码NADP相关氧化还原酶超家族蛋白,表型变异解释(PVE)值为6.31%,在测序葡萄中出现的频率为20.4%。此外,SN6位点的一个显著的1.1 kb缺失,PVE值为6.08%,与光解酶编码基因Vitvi030206相关,在测序葡萄中的频率为13.0%(Fig 3c)。一个独特存在于食用葡萄2的139 bp插入位于与蔗糖含量相关的Suc1位点,PVE值为6.60%,在食用葡萄2中的出现频率为56.9%(Fig 3d)。这个插入靠近一个与AtRHM1同源的基因,该基因编码参与UDP-beta-L-鼠李糖生物合成的酶。研究者还对PNT2T单一参考基因组的SNP数据集进行了GWAS,发现136个位点中有124个(91.18%)既被泛基因组SNP检测到,也被PNT2T参考SNP检测到。总体而言,基于泛基因组整合SVs和SNPs的GWAS分析,提高了对重要性状的映射能力。

研究者对不同表型类别的候选GWAS位点进行了比较,发现了一个与可溶性固形物含量(SSC)相关的位点(SSC7, Chr17:6.47-6.53 Mb),这个位点与负责浆果宽度的候选位点(BeWi9, Chr17:6.47-6.65 Mb)相邻。两个最显著的SNP(17_6489512和17_6484258)分别对应SSC7和BeWi9位点,PVE值分别为6.05%和5.91%(Fig 3e-f)。作者构建了一个基于合并区域(6.47-6.65 Mb)变异的局部系统发育树,显示了栽培葡萄组内一个紧密的聚类,其内部分支长度极短,表明该区域的遗传多样性较低,可能发生了选择性清除(Fig 3g)。SNP 17_6489512的纯合基因型与较低的可溶性固形物含量相关,而SNP 17_6484258的纯合基因型与较高的浆果宽度相关。基于该位点的基因组注释,作者鉴定了两个基因簇(NEPS家族和NRT1家族),并检查了这些基因在浆果中的表达。NEPS家族的Vitvi031750和NRT1家族的Vitvi031760在两种单倍型的四个葡萄品种中表达显著高,而Vitvi031756在两个酿酒葡萄(梅洛和赤霞珠)中的表达高于Table1。

在葡萄中对农艺性状的分化选择
为了确定与复杂性状相关的数量性状位点(QTL)在群体分化过程中是否受到选择,研究者在两个鲜食葡萄组(Table1 和 Table2)之间进行了 XP-EHH(跨群体扩展单倍型纯合度)分析。发现共有 21.45 Mb(4.4%)的区域存在显著差异(P < 0.05)。固定统计量(FST)分析中的前 5%异常值显示出类似的模式。基因集富集分析(GSEA)显示,与激素响应和应激响应相关的四个GO术语在分化基因组区域的基因集中富集。研究者将这些高度分化的区域与表型相关区域对比,发现六个GWAS候选位点位于分化基因组区域,涉及浆果颜色(BC4位点)、果皮收敛性(SA1)、浆果形状(BeS2)、果穗重量(BuW5)、果肉紧实度(FF6)和酒石酸含量(Tar4)。BC4位点包含多个与浆果颜色相关的MYB基因,而FF6位点解释了果肉紧实度变异的7.35%,在两个组之间存在差异,Table2组的果肉紧实度比Table1组增加了11.7%。葡萄品种的不同用途,如酿酒用和鲜食水果用,可能推动了栽培群体之间的遗传和表型分化。根据XP-EHH分析,约21.35 Mb的基因组区域在酿酒组和Table1组之间存在显著差异。GSEA结果表明,氨基糖、谷胱甘肽和几丁质代谢过程以及毒素分解过程在分化的基因组区域中富集。作者检测到45个与群体分化区域相关的GWAS候选位点,这些位点决定了浆果大小,涉及五个性状:浆果宽度(BeWi)、浆果长度(BL)、浆果体积(BV)、浆果重量(BeWe)和单穗重量。基于八个代谢表型(可滴定酸(TAC)、可溶性固形物(SSC)、葡萄糖(Glu)、果糖(Fru)、蔗糖(Suc)、酒石酸(Tar)、苹果酸和柠檬酸),32个相关候选位点富集。在分化区域中,作者还鉴定了五个与果实大小相关的GWAS候选位点(BV12、BeWe6、BuW2、BV15和BeWi9),以及两个与代谢产物相关的GWAS候选位点(TAC3和SSC7)。总体而言,这些分析表明,对农艺性状的分化选择与不同的育种目标相关联。


SV增强了葡萄性状的遗传力估计
由于大多数SVs与SNPs没有连锁,它们可能补充了关联分析和基因组扫描测试中缺失的遗传力。正如之前所述,作者已经展示了一些候选GWAS区域仅通过SVs而非SNPs被鉴定出来。进一步使用LDAK模型研究了SVs对表型性状的贡献,该模型估计了遗传变异解释的表型方差比例。仅使用SVs或SNPs限制了大多数农艺性状的预测能力,SNPs贡献的遗传力从0.01%到52.3%不等,而SVs贡献的从0.5%到86.1%不等。数量性状的响应主要由SNPs主导,这暗示了多基因结构,许多位点有微小的效应,而质量性状主要受SVs的影响,可能具有较大的效应。作者的分析表明,SVs对15个性状的遗传力贡献大于SNPs。例如,全基因组SVs解释了浆果宽度(BeWi)变异的74.6%,而全基因组SNPs只解释了0.5%。

同样地,SVs在可溶性固形物含量(SSC)中贡献了35.8%的遗传力,而SNPs仅贡献了0.6%。Chr7上的一个5.6 kb缺失解释了SSC的6.23% PVE(SSC2,Chr7:2029369–2032050)。携带这个SV杂合缺失的酿酒葡萄品种的SSC显著低于没有缺失的品种,研究人员推测这可能与Vitvi011368基因的调控有关,该基因编码一种异淀粉酶。GWAS结果揭示了浆果长度(BL)与一个SNP(BL2位点,Chr10_9052243,PVE: 6.63%)之间的显著关联。SNPs对BL捕获的遗传力贡献了20.9%,而SVs将其提高到64.9%。计算了性状间的遗传相关性,以评估葡萄育种中多性状的基因组选择。结合泛基因组SVs和SNPs,作者计算了29个性状间的成对遗传相关性,其中20.7%显示出显著信号。不同果实性状间的遗传相关性(rG值)范围从0.41到0.97,表明未来育种工作中有可能同时选择多个性状(Fig 5b)。浆果重量(BeWe,SV遗传力=63.7%)和浆果长度(BL,SV遗传力=54.0%)是成对遗传相关性的主要枢纽。多基因评分(PGS)汇总了许多遗传变异的效果,形成一个单一的预测分数,用于基因组选择的评估。作者基于GWAS汇总统计数据(泛基因组SNPs+SVs)评估了所有29个性状的PGS。所有性状的PGS预测准确率平均超过50%,捕获遗传力较高的性状倾向于显示出更高的预测准确率。本研究获得的预测准确率比之前对葡萄的研究至少提高了16%。特别是,作者发现BL具有更高的遗传力(74.9%),超过了SSC捕获的36.4%的遗传力。PGS预测在SSC中的准确率为57.46%,在浆果长度(BL)中的准确率为79.53%。

结论
该研究构建的葡萄图形泛基因组(Grapepan v1.0)和变异图谱为葡萄基因组学研究和育种提供了宝贵资源。通过深入分析SVs在葡萄基因组中的分布、与其他遗传元件的关系以及对农艺性状遗传力的贡献,揭示了SVs在葡萄遗传变异和育种中的重要作用。研究发现的葡萄农艺性状遗传基础和遗传相关性,为多性状基因组选择育种提供了理论依据和实践指导,有助于加速葡萄品种创新,适应种植需求、市场变化和气候变化。未来,基于这些成果有望培育出更优质、多抗、高产的葡萄新品种,推动葡萄产业的可持续发展。同时,该研究方法和成果也为其他作物的生物育种提供了借鉴和参考。