在这项研究中,研究人员首先利用英国生物银行(UK Biobank, UKB)的数据,通过外显子测序(exome sequencing)和微阵列数据(microarray data),识别出携带罕见预测功能丧失(predicted loss-of-function, pLoF)变异和有害错义变异(deleterious missense variants)的个体。罕见变异是在参与者中出现频率极低的遗传变异,这些变异可能导致基因功能的丧失或改变。
多基因得分的应用
研究中应用了教育成就多基因得分(Educational Attainment Polygenic Score, EA-PGS)来评估个体的遗传倾向。EA-PGS是基于大量常见遗传变异的累积效应计算得出的,这些变异各自对教育成就的影响可能微小,但合并起来可以显著预测个体在教育领域的表现。
表型特征的评估
利用UK Biobank的丰富表型数据,研究团队评估了包括认知功能、教育年限、就业状态等在内的多种社会经济特征。这些表型数据使研究人员能够探索罕见变异和多基因得分如何共同影响这些复杂的人类特征。
分析
通过进行线性回归(linear regression)和逻辑回归(logistic regression)分析,研究人员评估了罕见变异负担(rare variant burden)与各种表型之间的关联。这些统计测试帮助确定了罕见变异数量增加对认知和社会经济结果的具体影响。
分层分析
研究还进行了分层分析,将UK Biobank的参与者根据他们的EA-PGS分为不同的五分位数(quintiles),并重复进行表型关联测试。这种方法使研究人员能够详细探讨不同遗传背景下表型表达的差异。
基因与表型的相关性
研究还探讨了教育成就全基因组关联研究(Genome-Wide Association Studies, )位点与发展性障碍基因(Developmental Disorders Gene-to-Phenotype Database, DDG2P)的关系,以评估这些基因是否与罕见疾病相关基因空间上接近,可能揭示罕见和常见变异通过重叠的生物途径作用。