Tanaka2017 GS的贝叶斯优化

Tanaka, R., and Iwata, H. 2017. Bayesian optimization for genomic selection: a method for discovering the best genotype among a large number of candidates. Theor. Appl. Genet. (123456789): 1–13. Springer Berlin Heidelberg. doi:10.1007/s00122-017-2988-z.

摘要

提出了一种基于优化算法的新的预育策略,并通过模拟进行了评估。这种策略可以找到更好的基因型与较少的表型分型努力。摘要:基因组预测是一种很有前途的方法,用于在基因库中保存的大量种质资源中搜索优良的基因型。当一些种质进行表型和基因分型时,可以建立预测模型,并且可以从其标记基因型预测剩余种质的基因型值。在这项研究中,我们着重于基因组预测在预培育中的应用,并提出了一种新的策略,可以降低发现更好种质所需的表型分型的成本。将基因组预测优越基因型作为优化问题,引入贝叶斯优化方法进行求解。贝叶斯优化,根据预期的改善(EI)作为选择标准,抽样未观察到的投入,似乎是有利于prebreeding。 EI取决于基因型值的预测分布,而通常的选择仅取决于点估计。我们模拟了候选基因型中最佳基因型的搜索,并且显示基于EI的策略比通常的和随机选择策略需要更少的基因型来鉴定最佳基因型。因此,贝叶斯优化对于将基因组预测应用于预培育可能是有用的,并且会减少大量候选人中找到最佳加入所需的表型加入的数量。


介绍

为了在2050年之前为90多亿人口提供粮食,我们需要通过新的育种技术和利用种质资源中的遗传多样性来加速作物遗传改良(Tester和Langridge,2010)。由于精英繁殖种群和商业栽培种在其长期的驯化和选择历史中失去了遗传多样性,所以野生,外来或本地种质的丰富变异的进化对于促进植物育种是至关重要的(Tanksley and McCouch 1997; Jordan et al。 McCouch等,2013)。为了收集,保存,保存和分发代表作物品种遗传多样性的种子(如Sachs,2009),已做出了大量的国内和国际努力。
鉴定特定育种目标的最佳种质是耗费时间和劳力的,因为它要求在植物基因库中保存大量种质的表型。为了便于筛选,已经在各种作物物种中开发了核心种质(少量代表性种质的部分集合; Brown 1989)。然而,核心收集战略可能会限制核心收集品之外的加入者的使用。例如,核心集合中可能缺少有价值的稀有等位基因。已经提出了替代的策略,例如种质策略的重点鉴定(例如,Khazaei等,2013),但缺点是图依赖于与目标性状有关的农业生态信息,并且不能使用遗传信息
基因组选择(GS; Meuwissen et al.2001)依靠基因组预测来发现种质资源中的优质种质。与表型分型相比,标记基因分型即使在标记数量较多的情况下也能实现高通量且更具成本效益。可以基于训练数据(表型和全基因组标记数据对)建立基因组预测模型,并基于其全基因组标记基因型预测没有表型数据的基因型的基因型值。基因组预测可用于鉴定种质资源中的优质材料,并将其应用于预育,目的是鉴定大量材料中的高潜力基因型(Pace等,2015; Chang等,2016; Gorjanc等,2016 ; Yu等,2016)。
全局优化是一个数学问题,用于在输入空间中查找使函数最大化的输入值,而预先培育的目的是在候选基因型中找到最好(或更好)的基因型。为了有效实现全球最优化,我们需要平衡两个相互冲突的目标:探索和利用。通常,我们只是利用我们的预测模型来找到最好的基因型;选择具有较高预测基因型值的基因型。由于我们的预测模型并不总是正确的,所以这种纯粹的利用策略可能会发现与训练数据集密切相关的更好的基因型(局部最优),而不是所有候选基因型(全局最优)中的最佳基因型。为避免陷入局部最优,需要对输入空间进行广泛的探索,以确保选定的基因型和训练数据集的遗传多样性。探索-利用折衷是全球优化中的一个众所周知的问题,并且已经开发了几种算法来解决这个问题,包括贝叶斯优化(Mockus 1994; Jones等人1998; Shahriari等人2016),但是它从未适用于前期育种的情况。
在这项研究中,我们介绍贝叶斯优化在与基因组预测育种的背景下,并提出了一种新的有效的策略,以发现集合中最好的基因型,同时尽量减少表型筛选步骤的数量。我们的新策略使用一个新的标准选择未经测试的基因型。我们的策略和通常的GS之间的差异在于选择取决于预测的分布或预测的基因型值的点估计。我们的策略建议选择不仅具有高预测值而且具有高后验方差(换言之,预测的“不确定性”)的基因型,而通常的GS选择仅具有高预测值的基因型。通过考虑预测的不确定性,勘探开发权衡将是平衡的。在GS中,与训练群体相关的基因型在预测中往往具有很大的不确定性。因此,不确定基因型的选择导致对遗传空间的广泛搜索。因此,我们的策略平衡了探索(通过基于“不确定性”搜索基因型进行的基因空间的广泛搜索)和开发(根据预测选择更好的基因型),而通常的GS是纯粹的开发。我们通过模拟来评估我们的策略的潜力,假设最好的基因型在基因型中具有最高的基因型值。

你可能感兴趣的