该研究构建了一个名为TR-gnomAD的基因库规模的串联重复扩展(tandem repeat expansions, TRs)参考图谱,涵盖了338,963名人类基因组样本。这些样本代表了多样的血统,其中39.5%来自非欧洲样本。研究中使用了两种准确且广泛使用的串联重复基因分型工具,ExpansionHunter和GangSTR,以提高串联重复基因型的覆盖率。
首先,通过ExpansionHunter和GangSTR对每个样本中的串联重复进行基因分型。这些工具能够准确识别并计数串联重复单元(TR units)。然后,使用TRTools中的MergeSTR和dumpSTR等工具对基因型数据进行整合和质量控制,以确保数据的可靠性。
随后,研究团队开发了一种基于2-Wasserstein distance的串联重复差异评分(TR disparity score, TRDS),用于量化不同群体间串联重复单元数频率分布的差异。此评分帮助研究者探究特定血统中串联重复扩展的流行病学特征。
此外,TR-gnomAD还可以作为控制队列,用于解释已知的临床病理性串联重复。通过与疾病组中的串联重复单元数进行比较,研究人员可以识别出潜在的病理性扩展。
总体而言,TR-gnomAD提供了一个宝贵的资源,可用于研究和诊断与串联重复扩展相关的遗传疾病,特别是在多种血统中。这项资源的开放获取性和高覆盖率使其成为人类遗传多样性中串联重复的重要工具。