论文阅读(十三):复杂表型关联的贝叶斯、基于系统的多层次分析:从解释到决策
1.论文链接:Bayesian, Systems-based, Multilevel Analysis of Associations for Complex Phenotypes: from Interpretation to Decision
摘要:
遗传关联研究(GAS)报告的结果相对稀缺,促使许多研究方向。尽管关联概念在GAS中处于中心地位,但关联的概念仍然缺失;同时,各种特征子集选择方法成为确定多元相关性的事实上的标准。另一方面,概率图模型,包括贝叶斯网络(BN)越来越受欢迎,因为它们可以学习复杂的表型描述符和异质解释变量之间的非传递,多变量,非线性关系。结合贝叶斯统计和贝叶斯网络的优点,提出了基于贝叶斯网络的贝叶斯多层相关性分析(BN-BMLA)。这种方法允许处理多个目标变量,同时确保可扩展性并提供多变量分析结果的多级视图。本章讨论了在GAS的背景下,在探索性数据分析、最优决策和研究设计以及知识融合中使用基于贝叶斯BN的相关性分析。
关键词:全基因组关联研究,贝叶斯网络,相关性
遗传关联研究(GAS)报告的结果相对稀缺,促使许多研究方向,如使用单变量贝叶斯分析和使用多变量,复杂或集成模型。尽管关联的概念在GAS中处于中心地位,但相关的概念却缺失了,同时各种特征子集选择方法成为确定多元相关性的事实上的标准。另一方面,包括贝叶斯网络(BN)在内的概率图模型越来越受欢迎,因为它们可以学习复杂表型描述符和异质解释变量之间的非传递,多变量,非线性关系。结合贝叶斯统计和贝叶斯网络的优点,提出了基于贝叶斯网络的多层相关性分析方法。这种方法允许处理多个目标变量,同时确保可扩展性并提供多变量分析结果的多级视图。本章讨论了在GAS的背景下,在探索性数据分析、最优决策和研究设计以及知识融合中使用基于贝叶斯BN的相关性分析。首先,概述了各种基于BN的关联和相关性概念。特别是,本章分析了BN和强/弱关联以及马尔可夫毯/边界或相关集合之间的联系;定义了关联关系。然后,贝叶斯统计方法的优势,susciently表征和探索弱显着的结果。为此,重点是设置在后验的定义以上的关联关系。下一节讨论GAS结果中多变量相关性的贝叶斯最优决策。在最后一节中,它表明,贝叶斯BN为基础的方法提供了一个框架,通过各种遗传数据分析所获得的结果的融合。这最后一节描述了一个程序,专门用于估计后验的复杂功能,如那些涉及的层次结构,相互关联的假设的BN-BMLA框架。
13.1介绍
遗传关联研究报告的结果相对较少,导致了几种方法,如单变量贝叶斯分析[5,52]和使用多变量,复杂或集成模型[61,65]。概率图模型,包括贝叶斯网络(BN),越来越受欢迎,因为它们可以学习复杂表型描述符(也称为目标变量,因变量或依赖结果)和异质性(主要是遗传)解释变量(输入变量,因子或预测因子,也称为统计学中的属性或特征)之间的非传递性,多变量,非线性关系。我们在这里讨论传统的统计关联的局限性,并展示如何使用所谓的输入变量与一个或多个目标变量的相关性的概念来规避它们。我们将在13.2.1小节中说明关联性是联想的一个有用的扩展。最近,我们提出了基于贝叶斯网络的贝叶斯多层相关性分析(BN-BMLA),它结合了贝叶斯统计和贝叶斯网络的优点[4]。此外,这种方法允许调查多个目标变量,并提供可扩展的单变量强相关性和完全多变量相关性之间的中间水平,以解释部分多变量水平的结果。因此,BN-BMLA提供了多变量分析的多层次视图。我们讨论了BN-BMLA相关性分析在数据探索、最优决策和知识融合中的应用。
首先,我们概述了BN的一些结构特性,特别强调了13.2节中基于系统的相关性分析。第13.3节展示了贝叶斯统计方法在表征和探索弱显著性结果方面的优势。在13.4节中,我们讨论贝叶斯决策理论在GAS中的应用。在第13.5节中,我们将讨论数据分析结果的贝叶斯解释和融合。在本章中,我们还考虑了贝叶斯推理的实践和计算方面:我们应用了哮喘领域中描述的方法。
13.2基于贝叶斯网络的关联和相关概念
关联的概念在遗传关联研究中缺失,尽管这一概念处于中心地位。因此,各种特征子集选择(FSS)方法成为量化多个变量及其相互作用的联合相关性的事实上的标准,这将被称为多变量相关性(对于FSS的概述,读者可以参考[48])。在本节中,我们将讨论如何使用贝叶斯网络的结构属性来定义这些概念。
13.2.1关联性和强相关性
将标准统计成对关联(单变量情况)扩展到多对一或多对多关系(多变量情况)是一项具有挑战性的任务,因为可以制定多个目标,例如评估多个预测因子的预测性能和相互依赖性。在识别相关变量的预测方法中,与目标变量Y的相关性在下面的包装器框架中定义。包装器方法的固有局限性在于,它会受到所使用的预测模型类别、优化算法、数据集以及量化错误和遗漏发现的损失函数的影响[32]。病例对照研究中的一个典型例子是使用梯度下降法进行逻辑回归,以最大限度地减少误分类错误,可选地使用复杂性正则化,以最大限度地减少给定数据集的过度。相关性类型的标准条件概率版本没有模型类、优化、数据集或损失函数,定义如下:
13.2.2稳定分布、马尔可夫覆盖层和马尔可夫边界
13.2.3其他相关类型
对于因果马尔可夫假设下的因果解释,读者可以参考[26,42]。需要强调的是,这些关系代表了相关性的不同方面,并且由于多个目标变量的可能性和非遗传预测因子的可能性,它们在遗传学中的使用存在微妙的差异。根据通常的遗传术语[15],直接相关性(DR)正式确定了直接关联的概念,尽管它也涵盖了直接后果。间接因果关联(ICR)和混淆关联(CR)是区分和表达间接关联和混淆关联的概念。成对联想(A)代表通常的联想,它是直接、间接和混杂联想的结合。互动主义相关性(IR)偏离了纯粹的上位关系[16],因为后者是个体变量的边缘效应消失的结果,可以通过上下文依赖来建模(见定义13.5,第325页)。总之,成对关联和强关联的标准概念之间最显着的区别是关联包括某些形式的弱关联(即,混淆相关性(ConfR)和传递性因果相关性(TCR)),并且它不包括由互动主义相关性所代表的情况。一个直接的后果是,只在互动主义相关性的预测将被筛选出典型的高维研究中的成对方法,因为它们不相关的定义。还要注意,这些关系中的大多数并不相互排斥,例如,一个预测因子可能同时具有直接和间接效应,这也可能是混淆的。这些关系的概述如图13.2所示。这些相关性类型的应用在第13.3.6小节中描述。
迄今为止,相关性的定义是基于条件独立性的一般概念,但当独立性仅存在于给定上下文中时,可以通过引入上下文独立性来使条件独立性变得更加具体(对于其在BN领域的使用,读者被称为例如,[6])。在遗传学中,如果一个变异对给定的目标没有影响,除非存在其他变异,这种表示可以表达一种相关的,看似互补的现象[14,45]。
13.2.4强相关的必要子集和充分超集
MBM特征分别给出了每个预测因子的强相关性的总体表征,但没有捕获预测因子的联合相关性。在另一个极端,马尔可夫边界子集的特点联合强相关的预测,但可能的MB集的数量是指数,这是难以处理的计算和统计。引入了k元马尔可夫边界子集的概念,专注于k大小的变量集,以支持强相关性的约束多变量分析,称为相关性的部分多变量分析[4]。在这里,我们用类似的超相关性概念来补充这个次相关性概念。
这些概念在哮喘问题领域的应用如图13.3所示。
13.2.5多个目标的相关性
如果有多个目标变量Y必须一起检查,并且如果它们之间的关系不相关,则可以要求与目标集相关的变量。单个目标变量的相关性的基本概念可以很容易地扩展到多个目标[4]。
定义 13.7
如果变量Xi对Y强相关(弱相关),当且仅当它对Y中的任何Yi强相关(弱相关)。
我们引入了额外的关系,例如独占或多重相关性,以便更好地描述预测变量与多个目标变量之间的相关性类型。相应的定义在表13.2中给出,使用贝叶斯网络表示。我们引导读者参阅第13.3.6小节以了解这些关系在哮喘和过敏研究中的应用。
13.3复杂表型相关性的贝叶斯观点
贝叶斯网络表示,沿着马尔可夫毯集和强相关性的概念,开辟了特征学习、特征子集选择问题和遗传关联研究中的许多研究方向[48]。“过滤器”方法,后来被称为“局部因果”方法,起源于马尔可夫毯集(MBS)和强相关性[1,10,34,63,28]。然而,尽管快速发展的方法,旨在确定一个最佳的MBS,在频率论框架中的最佳MBS的全局意义,以及在贝叶斯框架中的主导MBS的缺乏,仍然被忽视。
贝叶斯方法在遗传关联研究中越来越受欢迎,因为它们能够成功地表征和探索弱显著性结果并科普多个假设检验(一般方法见[18,24];对于GAS的应用见[52];对于方法见[19,35,65])。
13.3.1估计复杂特征的后验
MCMC过程生成L个DAG的依赖序列DL^G。使用MCMC模拟,我们根据公式(13.7)估计目标变量的MBG后验,见第13.3节(第328页)。在每个MCMC步骤中,我们确定与该步骤中的DAG G相对应的边界图bd(Y,G),并更新该边界图的相对频率。(We回想一下,边界图bd(Y,G)的存在以概率1意味着相应的变量是马尔可夫边界,见13.2.2小节。表13 - 1中所有成对关系的更新类似(见第13.2.3页第13.2.3小节)和表13.2(见第13.2.5节,第13.2.5页);在每个MCMC步骤中对每个可能的变量对评估这些关系,并且因此在整个MCMC采样中为给定关系的每个可能的实例化维护计数器。注意,对目标变量的选择没有实际限制,即,在同一MCMC模拟中,我们可以同时评估多个目标集。本章讨论的结构特征评估及其相对频率更新的计算复杂度为O(n)(n表示变量的数量)。在具有多个描述符的复杂表型的情况下,我们可以将描述符一起用作联合目标集,并且每个描述符单独使用。一个偶尔实用的反演是选择一个预测变量作为目标,因为我们可以探索与这个预测变量相关的所有表型(关于这种反演在频率论框架中的应用,见[34])。因此,评估的特征集可以完全满足执行分析的专家的需求、查询或先入为主的观念。
在第二个“事后”阶段,我们从第一阶段估计的MBG后验中计算各种MBS相关的边缘后验。MBS和MBM后验是根据估计的MBG后验精确计算的,类似于公式(13.5)(见第13.3节,第328页)。给定k-subMBS集或k-supMBS集的后验可以根据公式13.9和13.10直接从MBS后验计算(见第13.3.4节,第13.3.4页)。为了找到高度可能的k-subMBS和k-supMBS集合,我们应用贪婪算法,因为这些集合的基数多项式增长()。在k-subMBS的情况下,贪婪搜索的起始状态是空集,其可以被视为概率为1的平凡的0 subMBS。该算法将该集合扩展为最大17 O(n的k次方)的(k+1)-subMBS,在后面的在k-supMBS的情况下,搜索的初始状态是完备集U,算法从完备集U中迭代地消除预测因子,以获得具有最大后验的(k-1)-supMBS。
在MCMC模拟中,我们还计算了各种复杂特征后验的收敛性和置信度的定量度量。以下一组度量可以被视为标准集:
-
Geweke Z分数,测量单个链内的收敛性,即采样开始和结束时后验差异的显著性[24]。
-
Gelman-Rubin R分数,测量链间收敛性,即独立采样过程差异的显著性[24]。
-
置信区间,基于MCMC的标准误差[18]。
图13.4展示了所应用的MCMC采样相对于烧入期的收敛性。请注意,这些度量对于每个特征是不同的,即MBM后验的估计通常比3-subMBS后验或MBG后验的估计要快。这些度量的值是在MCMC模拟的每一步l中使用步骤1到l的MCMC样本计算的。
下面,我们将通过一个案例研究来演示该方法的应用。该研究涉及来自匈牙利(高加索)人群的1201名无关个体。436名3 ~ 18岁的哮喘儿童被招募参与本研究。对照组由765例受试者组成(平均年龄:19岁,405例男性/360例女性)。我们使用了三个嵌入式数据集:(1)所有病例的哮喘状态已知(1201例受试者,数据集A);(2)在1100例病例中,鼻炎的状态也是已知的(数据集RA)(只有那些鼻炎状态已经过专家艾德的受试者);(3)在200例病例中,鼻炎的状态以及IgE和嗜酸性粒细胞的血清水平也在该数据集中已知(数据集CLI)。
13.3.2完全多变量分析数据的充足性
不管贝叶斯条件方法(例如贝叶斯逻辑回归)或基于BN的方法,预测器集合的后验概率分布指示它们相对于所选模型类的联合相关性(如在BN情况下的MBS后验)通常适用于当代GAS的设置,因为样本量,预测因子数量,效应大小,模型复杂度包括先验。图13.5显示了这样的MBS后验概率,从最大后验概率MBS到最小概率MBS,它表明有几个集合的概率仅略低于MAP集合。这也表明,MAP MBS不是主导的,因为它的后验是可以忽略不计的。此外,图13.5中的累积分布函数也表明没有占主导地位的MBS,即,缺乏少量具有高后验的MBS,使得它们的后验总和接近于1。需要强调的是,这些结果是数据的力量而不是先验的结果;因此,它们也表明在频率论的最大似然方法中缺乏占主导地位的最优模型。在数据集RA和哮喘目标变量的情况下,MAP集仅具有0.010688的概率。由于样本量较小,当哮喘和鼻炎是目标变量时(即,多目标分析),MAP集的概率甚至更低,即0.007626。这种现象在数据集CLI的情况下甚至更明显,其中MAP集的相应概率分别为0.001496(哮喘目标)和0.000073(多目标)。这些MBS后验与我们早期的模拟结果一致[4],这表明200大小的样本通常会导致非常小的后验分布(“小样本量”),而1000大小的样本对应于“中等样本量”,相对于我们的100个变量的设置,这在候选GAS和部分基因组筛选研究中是典型的。
13.3.3学习率:特征和模型复杂度的影响
在给定层级上后验的相对平坦通常表明信息量不足,即存在高度的不确定性;因此,给定层级可能不适用,例如在给定的k值以上,MBGs、MBSs或k-subMBSs/k-supMBSs层级可能不适用。后验分布的一般不确定性可以通过其熵来表征,对于平坦的、几乎均匀的、非信息性的后验分布,熵会很高。图13.7展示了不同模型大小和样本大小下MBM和MBS特征分布的熵。
图中所示的趋势。13.8和13.9(第336页)总结于表13.3(第336页)。对于每个性能指标,可以选择可接受的和非常好的性能的阈值,这允许将“小”和“大”样本量定义为达到这些阈值的最小样本数。在我们的案例中,可以使用给定的变量数量和模型复杂度来选择这些阈值,如下所示:AUC为0.6和0.9,灵敏度为0.1和0.5,错误发现率为0.5和0.1。对于给定的样本量,选择最优决策阈值的逆问题将在13.4节讨论。相对适中的性能和相对较高的“小”和“大”样本量是参考模型M0中丰富的弱关联的结果
13.3.4基于贝叶斯网络的贝叶斯多层次相关性分析
在第13.2.1小节(第320页)中,我们定义了可用于推断强相关变量的不同相关性类型,这些类型可以彼此独立(MBM)或在一个完整集合中联合(即,在MBS中)。此外,在基于MBG的相关性类型的情况下,甚至可以研究这些强相关变量之间的相互作用。在本节中,我们提供了这些相关性类型的一些特征,并展示了如何在遗传关联研究中使用它们来推理预测因子的相关性。
图13.10显示,基于MBM的近似只允许进行粗略的定量估计,并且相应的排名差异显著(当样本相对较小时,这种差异在大多数实际情况下尤为明显)。
贝叶斯多层次相关性分析引入了可扩展的中间层次,以提供多个层次的综合视图。它的动机是观察到,即使当MBG和MBS后验分布是在最可能的MBS和MBG共享显着的共同模式。我们引入了次相关性的概念,在本章中表示为k-subMBS(参见定义13.6(第326页)和[4]),以表征公共元素。通常,这些常见变量存在于具有高后验的MBS中,并且它们通常具有更大的效应大小。子集s的次相关性的后验概率为:
我们展示了使用的k-subMBS概念在哮喘领域。在这一领域,MBS后验分布是非常粗糙的,而MBM后验分布是非常粗糙的,这表明在中间水平的k-subMBS的分析可以unhinge重要的结果。因此,我们评估了图13.11所示的部分多变量结果。在k = 1,2,3,4的情况下,高的最大后验概率(对应于相对粗糙的后验分布)表明样本量足以推断这些变量是强相关的。相比之下,对于k > 4,最大后验多元特征是弱显著的。这些结果与预期一致,即随着特征基数的增加,后验分布逐渐趋于稳定。对应于多项式增加基数的k-subMBS桥的后验差距之间的差距的MBS和MBM后验的特点是存在许多峰。
13.3.5多个目标变量的后验
以PTGDR基因中的rs 17831682 SNP为例(参见图13.3中的PTGDR(1)),我们证明了多靶点方法的主要优势,即它允许我们区分多靶点相关性的亚型,这在之前的表13.2中进行了总结。当忽略多目标相关性时,强相关性的后验(即,rs 17831682对IgE(水平)、嗜酸性粒细胞(水平)、鼻炎和哮喘的MBM后验值分别为0.58、0.52、0.53和0.53,这表明与每个靶点的适度相关性。与其中至少一个强相关的后验概率(表13 - 2中的MBMToAny关系)更高:0.71(根据公式(13 - 13)近似为0.95)。然而,rs 17831682仅与IgE、嗜酸性粒细胞、鼻炎或哮喘(MBMToExactlyOne关系)强相关的后验概率分别仅为0.06、0.04、0.05和0.05,这表明该SNP可能与多个靶点相关。这一假设也得到了后面的支持,即该SNP与其他靶点强相关,但与IgE、嗜酸性粒细胞(水平)、鼻炎或哮喘(MBM与其他相关)不相关:分别为0.37、0.42、0.42和0.42。最后,rs 17831682作为多个表型靶点的相关SNP(MultipleMBMs关系)的后验概率较高(0.51),表明该SNP与靶点集强烈相关,并且该SNP在多种机制中发挥作用。
13.3.6强相关和弱相关的子类型
不同类型的相关性之间的区别对于揭示将相关SNP与其目标变量联系起来的可能因果和机制路径至关重要。估计各种相关性类型的后验概率使我们能够决定SNP是否直接相关或其关联由其他因素介导或两者兼而有之。我们展示了在数据集RA上进行的BNBMLA分析中相关类型的解剖,其中包含两个表型变量:哮喘和鼻炎。使用哮喘作为唯一目标,估计每个SNP的以下后验:直接因果相关性(DCR),关联(A),强相关性(SR),相互作用相关性(IR)和间接因果相关性(ICR)。表13.4显示了一些SNP的相应后验。
在我们当前的例子中,SNPs可以聚类为四组,如图13.14所示(第13.3.7页)。注意,关联、直接关联、传递关联和互动主义者关联都是复杂的、潜在重叠的事件(见图13 - 2)。SNPs AHNAK(2)和TXNDC 16(1)都具有中等高的强相关性后验(0.736和0.722),但具有非常低的直接因果相关性后验(0.029和0.08)。这意味着这些SNP与哮喘的强相关性不是由于直接的因果关系,而是由于与鼻炎的纯粹相互作用相关性。此外,与哮喘的传递性关系的后验相对较低(AHNAK(2)和TXNDC 16(1)的后验分别为0.535和0.189),这一事实表明,相互作用相关性(后验:0.708和0.713)是这些SNP与哮喘相关性的唯一相关亚型。这意味着这些SNP只有在鼻炎状态已知时才是相关的和相关的。
相比之下,PRPF 19(1)与哮喘(0.822)不仅具有传递性,而且还通过直接因果关系(0.718)与哮喘相关,这表明PRPF 19(1)与哮喘之间存在两条不同的因果关系路径:其中一条路径可以被其他因素阻断,但另一条路径不能。在第三组SNPs中,PTGDR(2)和PTGER 2(2)与哮喘的关联概率非常高(分别为0.923和0.970),这是由中度高TCR后验(0.747和0.604)指示的传递关系诱导的。请注意,所有其他后验都相对较低,表明TCR是这种情况下唯一显著的相关性类型。WDHD1(1)与之前组中的所有其他SNP形成对比,因为它与哮喘相关的概率很高(0.96),但其其他后验概率均不显著。这在纯混杂关系的情况下是可能的,其中一个共同的原因影响SNP和靶标(否则它们彼此独立)。请注意,如果传递依赖和混淆依赖不能区分,例如在连锁SNP的情况下,传递相关组和混淆组可以合并。关于这种方法在哮喘和过敏症中应用的更详细的生物医学讨论,我们请读者参考[58]。
13.3.7基于强相关后验的交互冗余得分
图13.15显示了相互作用-冗余度得分。这种模型级的交互和冗余的方法形式化的直觉,相关的输入变量与可分解的角色在参数级独立出现在模型中。如果集合s的k-subMBS后验大于其根据等式(13.8)和等式(13.9)基于MBM后验的近似,则可以指示集合s中的变量具有表示非线性联合效应的联合参数化。相比之下,在ksubMBS包括冗余变量的情况下,后验小于其基于MBM后验的近似,因为冗余变量在模型中的联合存在被抑制。
请注意,对应于给定靶标的相互作用冗余分数似乎与SNP之间的遗传连锁无关。图13.15清楚地表明,在PTGER2基因中的rs17197和rs708502艾德的这个结构域中存在几种基因内、染色体内和染色体间的相互作用。(14号染色体),PTGER 2基因中的rs12587410和DLG 7基因中的rs376966(两个基因均在染色体14中),以及在AHNAK(染色体11)中的rs11827029和在PTGDR基因(染色体14)中的rs17831675。
13.4多元相关的Bayes最优决策
由于多假设检验问题,GAS中相对较高的预测变量数量构成了严重的挑战:在单变量方法中,假设数量与变量数量呈线性关系。此外,在使用复杂模型类的多变量方法中,假设的数量可以是指数的。在频率论框架内出现了几种方法来处理单变量和多变量背景下的多假设检验问题。这些方法包括校正方法、基于置换测试的方法,并涉及错误发现率(FDR)和q值等概念[54]。
由于其直接的语义,贝叶斯多变量方法对多假设检验问题具有内置的自动校正:后验通常随着变量数量的增加和模型复杂性的增加而增加,即,在一个更复杂的假设空间中。
此外,贝叶斯决策理论框架允许关于模型属性的最佳决策,例如结果的最佳科学报告或研究的最佳继续(对于使用BN的贝叶斯研究设计,例如,见[2,62])。首先,我们总结了基于单变量后验和效用的变量相关性最优决策问题。其次,我们展示了应用贝叶斯方法构建贝叶斯FDR。第三,我们考虑使用一般的信息损失函数。
13.4.1关于单变量相关性的最优决策
13.4.2控制FDR的最优贝叶斯决策
分类性能的测量,如灵敏度,FDR和AUC是有价值的工具,但它们需要外部参考,即“金标准”,通常在评估环境中可用(对于最近的测量比较,请参见例如,[55])。经典的频率论方法还假设有一个未知的参考集,即我们数据下的“真实模型”。然而,贝叶斯框架基于贝叶斯模型平均(BMA),为缺乏参考模型提供了一个自然的解决方案。
13.4.3关于多元相关性的广义贝叶斯最优决策
13.5知识融合:基因与注释的相关性
分类法的结构和先验领域知识也可以用来细化语义相关关系。我们可以将分类法解释为一种特殊的贝叶斯网络(BN),其中局部参数模型是逻辑OR关系。在这个模型中,多变量语义强相关关系的后验可以解释为在叶子上有硬证据的推理过程的结果,这些叶子对应于表示分析变量强相关的指示变量。然而,这种混合预测变量(例如,SNPs)和术语的贝叶斯网络表示允许整合更多的背景知识,例如,使用Noisy-OR局部参数模型,其中给定输入的真实状态被给定的“抑制概率”所抑制[41]。Noisy-OR模型中的参数可以表示分类法中的入度和出度,例如,如果一个给定术语被许多基因注释,因此其入度相对较高,那么参数被设置为较小值以充分建模术语的普遍性。同样,如果一个给定基因被许多术语注释,因此其出度相对较高,那么参数可以设置为较小值以建模基因的更高频率。
在图13.20中,我们展示了从SNPs水平到基因本体生物学过程术语水平的聚合结果。从数据集A计算的MBS的后验概率通过考虑SNPs的物理位置和功能角色聚合到基因水平。然后,我们聚合这些结果到GO术语水平,考虑基因的注释。结果可以可视化为一个网络,其中节点是功能术语,节点之间的连接对应于本体的层次结构。节点的大小与节点所代表的功能术语在所研究的生物现象中具有功能角色的后验概率成正比。
13.6结论
贝叶斯方法为遗传关联研究中的研究设计、综合探索性数据分析、最优决策和知识融合提供了一个统一的艾德框架。概率图模型,特别是贝叶斯网络,允许分解和重组超载的关联概念。贝叶斯框架中的贝叶斯网络允许对多变量强相关性、相互作用、全局依赖性和因果关系进行后验推理,可选地具有针对多个目标的各种专业化。此外,GAS中基于贝叶斯网络的贝叶斯多级分析(BN-BMLA)允许在单变量强相关性和完全多变量相关性之间的可扩展中间水平,以解释部分多变量水平的结果;此外,在每个水平上,相关性可以从必要性(k-subMBS)和充足性(k-supMBS)的双重角度进行分析。
贝叶斯决策理论框架在数据探索阶段的BN-BMLA结果中的应用开辟了将领域知识纳入支持解释的新可能性并且潜在地自动化有趣关系的发现。贝叶斯框架还允许FDR和其他绩效指标的原则性和计算效率管理。
贝叶斯统计框架也为多假设检验问题提供了规范性解决方案,这是由大量的预测因子,特别是频率论框架内的交互数量引起的。这一说法也适用于BNs语言中定义的新关联关系的更丰富的假设空间,如MBMs,k-subMBSs/k-supMBSs,MBSs和MBGs。在贝叶斯框架内,或多或少的后验是大量变量和大量模型的结果,这类似于频率论框架中的功率损失,因为大量变量和大量模型的校正。然而,这两种方法之间有一个根本的区别,这在生物医学应用中非常有价值:贝叶斯方法,特别是贝叶斯模型平均,为复杂假设的后验结果的推导提供了一个规范的方法,例如k-subMBS/k-supMBS,MBSs,MBGs或语义强相关性。这在数据和知识融合中尤其重要,这是当前生物医学/转化研究的主要瓶颈。
尽管如此,BN特征的后验估计,如MBM,k-subMBS/k-supMBS,MBS和MBG,仍然存在于多假设检验问题中,因为MCMC过程本身,即,他们的估计是在频率论的框架下完成的。但这个问题主要与MCMC模拟的效率和长度有关,即,到DL^G中的采样DAG,而不是到数据集DN。换句话说,贝叶斯统计框架将统计根源的多假设检验问题转化为计算任务。
融合是遗传关联研究中公认的核心挑战。随着针对罕见变异的下一代测序技术的普及,融合的重要性将进一步增加。遗传因素有一个分层分类法,从SNP开始,向上移动到基因,然后是GO术语和途径。我们可以预期在表型描述符上也会出现类似的分层分类,例如人类表型本体论[46]。由于遗传因素通常是预测因子,而表型描述符通常是BN-BMLA方法中的目标,因此该方法可以被视为在多个粒度和多个抽象级别上分析相关性的支持。
贝叶斯统计方法的直接概率语义的优势允许以数学上直接和生物医学上可解释的方式将数据分析结果与逻辑先验知识结合联合收割机(对于SNP水平到基因和途径水平的BN-BMLA结果的聚合,参见[36,58,59])。除了通过聚集将后验传播到上层之外,它还允许构建贝叶斯数据分析知识库,以支持多个数据分析的弱显著性结果的融合。
参考文献
略
相关文章:
论文阅读(十三):复杂表型关联的贝叶斯、基于系统的多层次分析:从解释到决策
1.论文链接:Bayesian, Systems-based, Multilevel Analysis of Associations for Complex Phenotypes: from Interpretation to Decision 摘要: 遗传关联研究(GAS)报告的结果相对稀缺,促使许多研究方向。尽管关联概念…...
线性调整器——耗能型调整器
线性调整器又称线性电压调节器,以下是关于它的介绍: 基本工作原理 线性调整器的基本电路如图1.1(a)所示,晶体管Q1(工作于线性状态,或非开关状态)构成一个连接直流源V和输出端V。的可调电气电阻,直流源V由60Hz隔离变压器(电气隔离和整流&#…...
梯度提升用于高效的分类与回归
使用 决策树(Decision Tree) 实现 梯度提升(Gradient Boosting) 主要是模拟 GBDT(Gradient Boosting Decision Trees) 的原理,即: 第一棵树拟合原始数据计算残差(负梯度…...
使用Ollama和Open WebUI快速玩转大模型:简单快捷的尝试各种llm大模型,比如DeepSeek r1
Ollama本身就是非常优秀的大模型管理和推理组件,再使用Open WebUI更加如虎添翼! Ollama快速使用指南 安装Ollama Windows下安装 下载Windows版Ollama软件:Release v0.5.7 ollama/ollama GitHub 下载ollama-windows-amd64.zip这个文件即可…...
2025年1月个人工作生活总结
本文为 2025年1月工作生活总结。 研发编码 使用sqlite3命令行查询表数据 可以直接使用sqlite3查询数据表,不需进入命令行模式。示例如下: sqlite3 database_name.db "SELECT * FROM table_name;"linux shell使用read超时一例 先前有个编译…...
Windows环境安装nvm,并使用nvm管理nodejs版本教程
目录 1.nvm安装步骤 2.验证nvm是否安装成功 3.查看本地可以安装的所有版本 4.安装特定nodejs版本 5.配置nvm镜像 6.使用特定nodejs版本 7.给nodejs配置镜像和环境变量 8.查看本地安装的所有版本(* 表示当前版本) 9.卸载指定版本的nodejs 前端开发中,不…...
C++中常用的排序方法之——冒泡排序
成长路上不孤单😊😊😊😊😊😊 【14后😊///计算机爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】 今日分享关于C中常用的排序方法之——冒泡排序的…...
SQL进阶实战技巧:如何分析浏览到下单各步骤转化率及流失用户数?
目录 0 问题描述 1 数据准备 2 问题分析 3 问题拓展 3.1 跳出率计算 3.2 计算从浏览商品到支付订单的不同路径的用户数,并按照用户数降序排列。 往期精彩 0 问题描述 统计从浏览商品到最终下单的各个步骤的用户数和流失用户数,并计算转化率 用户表结构和…...
NLP模型大对比:Transformer >Seq2Seq > LSTM > RNN > n-gram
结论 Transformer 大于 传统的Seq2Seq 大于 LSTM 大于 RNN 大于 传统的n-gram n-gram VS Transformer 我们可以用一个 图书馆查询 的类比来解释它们的差异: 一、核心差异对比 维度n-gram 模型Transformer工作方式固定窗口的"近视观察员"全局关联的&q…...
接口技术-第5次作业
目录 作业内容 解答 一、填空题 二、综合题 1.采用AD570通过82C55A与CPU接口,82C55A的端口地址为300H~303H,完成用查询方式采集250个数据,送到2000H开始的存储单元存储。绘制电路连接图(AD570的4种主要信号线都要标出)。 2…...
实战技巧:如何快速提高网站的收录比例?
本文转自:百万收录网 原文链接:https://www.baiwanshoulu.com/28.html 快速提高网站的收录比例是网站优化中的重要目标之一。以下是一些实战技巧,可以帮助你实现这一目标: 一、内容优化 高质量原创内容: 确保网站内…...
WEB集群6-10天
第六天 nginx编译安装 全新的进行编译安装 [rootweb-1 ~]# mkdir /nginx [rootweb-1 ~]# cd /nginx/ [rootweb-1 nginx]# ls [rootweb-1 nginx]#curl -O https://nginx.org/download/nginx-1.26.1.tar.gz解压源码包 [rootweb-1 nginx]#tar xf nginx-1.26.1.tar.gz [rootw…...
10.共享内存 信号量集 消息队列
10.共享内存 信号量集 消息队列 **1. IPC对象操作通用框架****2. 共享内存(Shared Memory)****3. 信号量集(Semaphore)****4. 消息队列(Message Queue)****5. 练习与作业****6. 总结** 1. IPC对象操作通用框…...
玩转大语言模型——使用langchain和Ollama本地部署大语言模型
系列文章目录 玩转大语言模型——使用langchain和Ollama本地部署大语言模型 玩转大语言模型——ollama导入huggingface下载的模型 玩转大语言模型——langchain调用ollama视觉多模态语言模型 玩转大语言模型——使用GraphRAGOllama构建知识图谱 玩转大语言模型——完美解决Gra…...
数据结构与算法学习笔记----容斥原理
数据结构与算法学习笔记----容斥原理 author: 明月清了个风 first publish time: 2025.1.30 ps⭐️介绍了容斥原理的相关内容以及一道对应的应用例题。 Acwing 890. 能被整除的数 [原题链接](890. 能被整除的数 - AcWing题库) 给定一个整数 n n n和 m m m个不同的质数 p 1 …...
Appium介绍
在使用不同版本的Appium包进行自动化测试时,出现警告问题可能是由于版本不兼容、配置不正确等原因导致的。下面将详细介绍解决这些问题的步骤,确保模拟器能够正常启动,并能在Appium查看器中同步显示。 1. 环境准备 首先,确保你已…...
doris:Bitmap
BITMAP 类型可以在 Duplicate 表、Unique 表、Aggregate 表中使用,只能作为 Key 类,无法作为 Value 列使用。在 Aggregate 表中使用 BITMAP 类型,其建表时必须使用聚合类型 BITMAP_UNION。用户不需要指定长度和默认值。长度根据数据的聚合程度…...
gitee——报错修改本地密码
有时候当我们向远端push本地的仓库时会有一些报错的行为。 如下: 这是因为我们在gitee修改了密码时,本地还没有更新提交,总是报错 解决修改密码报错 如下: 1.在本地点击搜索栏找到控制面板 步骤如下...
Leetcode 45. 跳跃游戏 II
这题是一个动态规划问题,首先我先说一下自己的动态规划解题步骤: 1,首先需要明确动态规划数组的含义:这个是根据题目来定的,这一个题目的数组含义:dp【i】指的是从0跳到i所需要的最小的步骤。 2ÿ…...
ROS2---基础操作
工作空间(workspace) workspace是一个存放项目开发相关文件的文件夹。例如我们要开发一个机器人,我们可以创建一个工作空间,然后存放这个机器人不同功能的包(感知(雷达,相机等),运动࿰…...
【Leetcode 每日一题】350. 两个数组的交集 II
问题背景 给你两个整数数组 n u m s 1 nums_1 nums1 和 n u m s 2 nums_2 nums2,请你以数组形式返回两数组的交集。返回结果中每个元素出现的次数,应与元素在两个数组中都出现的次数一致(如果出现次数不一致,则考虑取较小值…...
第13章 深入volatile关键字(Java高并发编程详解:多线程与系统设计)
1.并发编程的三个重要特性 并发编程有三个至关重要的特性,分别是原子性、有序性和可见性 1.1 原子性 所谓原子性是指在一次的操作或者多次操作中,要么所有的操作全部都得到了执行并 且不会受到任何因素的干扰而中断,要么所有的操作都不执行…...
STM32 PWMI模式测频率占空比
接线图: PWMI基本结构 代码配置: 与上一章输入捕获代码一样,根据结构体,需要在输入捕获单元再配置一个通道。我们调用一个函数 这个函数可以给结构体赋值,当我们定义了一遍结构体参数,再调用这个函数&…...
无心剑七绝《恭贺新春》
七绝恭贺新春 软件通灵万象真 生机繁茂绘星辰 智联世界情不尽 系统更新又一春 2025年1月29日 平水韵十一真平韵 无心剑七绝《恭贺新春》以“软件生态”为题旨,巧妙融入新春喜庆氛围,展现出科技与自然和谐共生的意境。首句“软件通灵万象真”,…...
低代码产品表单渲染架构
在React和Vue没有流行起来的时候,低代码产品的表单渲染设计通常会使用操作Dom的方式实现。 下面是一个表单的例子: 产品层 用户通过打开表单,使用不同业务场景业务下的表单页面,中间的Render层就是技术实现。 每一个不同业务的表单…...
allegro修改封闭图形线宽
说在前面 我们先把最优解说在前面,然后后面再说如果当时不熟悉软件的时候为了挖孔是用了shapes该怎么修改回来。 挖空最方便的方式是在cutout层画一个圆弧,下面开始图解,先add一个圆弧 z 最好是在画的时候就选择好层,如果忘记了后续再换回去也行,但好像软件有bug,此处并…...
C++实现2025刘谦魔术(勺子 筷子 杯子)
目录 1、魔术步骤 2、C代码 2.1、定义物品 2.2、枚举初始顺序 2.3、进行step2筷子交换 2.4、进行step3杯子交换 2.5、进行step4勺子交换 3、运行结果 4、全部源码 又是一年春晚啦,今年比较期待的是刘谦的魔术表演,现在用C实现刘谦的第一个魔术&…...
Leetcode:219
1,题目 2,思路 第一种就是简单的暴力比对当时过年没细想 第二种: 用Map的特性key唯一,把数组的值作为Map的key值我们每加载一个元素都会去判断这个元素在Map里面存在与否如果存在进行第二个判断条件abs(i-j)<k,条件 符合直接…...
SpringBoot+Vue的理解(含axios/ajax)-前后端交互前端篇
文章目录 引言SpringBootThymeleafVueSpringBootSpringBootVue(前端)axios/ajaxVue作用响应式动态绑定单页面应用SPA前端路由 前端路由URL和后端API URL的区别前端路由的数据从哪里来的 Vue和只用三件套axios区别 关于地址栏url和axios请求不一致VueJSPS…...
小米CR6606,CR6608,CR6609 启用SSH和刷入OpenWRT 23.05.5
闲鱼上收了一台CR6606和一台CR6609, 一直没时间研究, 趁春节假期把这两个都刷成 OpenWRT 配置说明 CPU: MT7621AT,双核880MHz内存: NT5CC128M16JR-EKI 或 M15T2G16128A, 256MB闪存: F59L1G81MB, 128MB无线基带芯片(BB): T7905DAN无线射频芯片(RF): MT7975DN无外置F…...
我的求职面经:(2)C++中空指针请使用nullptr不要使用NULL
1. C中NULL定义就是整数字面量0 2. 对于C函数,由于存在重载,使用NULL而不是nullptr可能导致函数走错重载。 3. C中定义NULL为(void* )0,确实是代表空指针。使用时隐式转换成对应的需要类型的空指针。 4. C中void指针…...
Java8_StreamAPI
Stream 1.创建流 1.1 集合创建流 List<String> list List.of("a", "b", "c"); Stream<String> stream list.stream(); stream.forEach(System.out::println);1.2 数组创建流 String[] array {"a","b",&qu…...
[STM32 - 野火] - - - 固件库学习笔记 - - -十二.基本定时器
一、定时器简介 STM32 中的定时器(TIM,Timer)是其最重要的外设之一,广泛用于时间管理、事件计数和控制等应用。 1.1 基本功能 定时功能:TIM定时器可以对输入的时钟进行计数,并在计数值达到设定值时触发中…...
信息学奥赛一本通 1606:【 例 1】任务安排 1 | 洛谷 P2365 任务安排
【题目链接】 ybt 1606:【 例 1】任务安排 1 洛谷 P2365 任务安排 【题目考点】 1. 动态规划:线性动规 【解题思路】 可以先了解法1,虽然不是正解,但该解法只使用了动规的基本思路,易于理解,有助于理解…...
【解决方案】MuMu模拟器移植系统进度条卡住98%无法打开
之前在Vmware虚拟机里配置了mumu模拟器,现在想要移植到宿主机中 1、虚拟机中的MuMu模拟器12-1是目标系统,对应的目录如下 C:\Program Files\Netease\MuMu Player 12\vms\MuMuPlayer-12.0-1 2、Vmware-虚拟机-设置-选项,启用共享文件夹 3、复…...
【C语言】预处理详解
他们想要逃避工作的压迫,却又被功绩社会深植的价值观绑架。 前言 这是我自己学习C语言的第九篇博客总结。后期我会继续把C语言学习笔记开源至博客上。 上一期笔记是关于C语言的编译链接,没看的同学可以过去看看: 【C语言】编译链接_c 读取一行…...
设计模式Python版 适配器模式
文章目录 前言一、适配器模式二、适配器模式实现三、适配器模式在Django中的应用 前言 GOF设计模式分三大类: 创建型模式:关注对象的创建过程,包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式&…...
系统思考—蝴蝶效应
“个体行为的微小差异,可能在系统中引发巨大且不可预测的结果。” — 诺贝尔经济学得主托马斯谢林 我们常说,小变动带来大影响,这种现象,在复杂系统理论中被称为“蝴蝶效应”:即使极小的变化,也能在动态系…...
使用Edu邮箱申请一年免费的.me域名
所需材料:公立Edu教育邮箱一枚(P.S:该服务不支持所有的Edu教育邮箱,仅支持比较知名的院校) 说到域名,.me这个后缀可谓是个性十足,适合个人网站、博客等。.me是黑山的国家顶级域名(c…...
【开源免费】基于SpringBoot+Vue.JS体育馆管理系统(JAVA毕业设计)
本文项目编号 T 165 ,文末自助获取源码 \color{red}{T165,文末自助获取源码} T165,文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…...
C++ ——— 仿函数
目录 何为仿函数 仿函数和模板的配合使用 何为仿函数 代码演示: class Add { public:int operator()(int x, int y){return x y;} }; 这是一个 Add 类,类里面有一个公有成员函数重载,重载的是括号 那么调用的时候: Add ad…...
基于FPGA的BT656解码
概述 BT656全称为“ITU-R BT.656-4”或简称“BT656”,是一种用于数字视频传输的接口标准。它规定了数字视频信号的编码方式、传输格式以及接口电气特性。在物理层面上,BT656接口通常包含10根线(在某些应用中可能略有不同,但标准配置为10根)。这些线分别用于传输视频数据、…...
【Proteus仿真】【51单片机】简易计算器系统设计
目录 一、主要功能 二、使用步骤 三、硬件资源 四、软件设计 五、实验现象 联系作者 一、主要功能 1、LCD1602液晶显示 2、矩阵按键 3、可以进行简单的加减乘除运算 4、最大 9999*9999 二、使用步骤 系统运行后,LCD1602显示数据,通过矩阵按键…...
【16届蓝桥杯寒假刷题营】第1期DAY2
1.能选取元素的最多个数 - 蓝桥云课 问题描述 给定一个长度为 n 的数组 a,小蓝希望从数组中选择若干个元素(可以不连续),并将它们重新排列,使得这些元素 能够形成一个先严格递增然后严格递减的子序列(可以…...
安卓(android)饭堂广播【Android移动开发基础案例教程(第2版)黑马程序员】
一、实验目的(如果代码有错漏,可查看源码) 1.熟悉广播机制的实现流程。 2.掌握广播接收者的创建方式。 3.掌握广播的类型以及自定义官博的创建。 二、实验条件 熟悉广播机制、广播接收者的概念、广播接收者的创建方式、自定广播实现方式以及有…...
linux的/proc 和 /sys目录差异
/proc 和 /sys 都是Linux系统中用于提供系统信息和进行系统配置的虚拟文件系统,但它们的原理并不完全一样,以下是具体分析: 目的与功能 /proc :主要用于提供系统进程相关信息以及内核运行时的一些参数等,可让用户和程…...
使用Navicat Premium管理数据库时,如何关闭事务默认自动提交功能?
使用Navicat Premium管理数据库时,最糟心的事情莫过于事务默认自动提交,也就是你写完语句运行时,它自动执行commit提交至数据库,此时你就无法进行回滚操作。 建议您尝试取消勾选“选项”中的“自动开始事务”,点击“工…...
HTB:Active[RE-WriteUP]
目录 连接至HTB服务器并启动靶机 信息收集 使用rustscan对靶机TCP端口进行开放扫描 将靶机TCP开放端口号提取并保存 使用nmap对靶机TCP开放端口进行脚本、服务扫描 使用nmap对靶机TCP开放端口进行漏洞、系统扫描 使用nmap对靶机常用UDP端口进行开放扫描 使用nmap对靶机…...
新春登蛇山:告别岁月,启航未来
大年初一,晨曦透过薄雾,温柔地洒在武汉的大街小巷。2025 年的蛇年春节,带着新春的喜气与希望悄然而至。我站在蛇山脚下,心中涌动着复杂的情感,因为今天,我不仅将与家人一起登山揽胜,更将在这一天…...
如何获取小程序的code在uniapp开发中
如何获取小程序的code在uniapp开发中,也就是本地环境,微信开发者工具中获取code,这里的操作是页面一进入就获取code登录,没有登录页面的交互,所以写在了APP.vue中,也就是小程序一打开就获取用户的code APP.…...