Cancer Res|解码癌症遗传祖先的新算法

导读:从癌症衍生分子数据进行遗传血统推断

已发表的许多大规模癌症基因组研究表明,不同祖先背景群体之间的疾病分子组成存在差异,种族和族裔是多种癌症发病率、临床病程和结局的重要决定因素。癌症衍生数据的祖先特征主要有两个来源:患者自我识别的种族和族裔(SIRE)和患者的无癌基因型。但SIRE往往不完整或不准确且通常不与遗传血统一致,这就导致医生无法捕捉到完整的患者祖先信息,特别是在混合血统的情况下。从无癌组织中对患者的DNA进行基因分型,往往可以获得更准确和详细的祖先特征,但并不适用于所有类型的癌症(如白血病)。在此情况下,从肿瘤本身的核酸序列来推断患者遗传祖先是十分必要的。


近日,美国冷泉港实验室(CSHL)研究团队在Cancer Research杂志上发表了题为“Genetic Ancestry Inference from Cancer-Derived Molecular Data across Genomic and Transcriptomic Platforms”的文章。研究团队揭示了癌症和种族/族裔之间的谱系关联,并开发了一种新算法,能够在缺乏匹配无癌基因组数据的情况下,从肿瘤DNA和RNA中准确、可靠地推断患者遗传祖先。该研究有助于临床医生制定早期癌症检测和个性化治疗的新策略。


71f76ddd0c8a4171e8d1447523a75768.png

文章发表于Cancer Research


研究团队开发了一个数据合成框架,从癌症衍生数据(包括全外显子组、转录组和靶向基因组)中来推断遗传祖先(算法流程如图1所示)。该算法首先对患者样本和已知祖先的基因组数据进行数据合成。研究团队将已建立的祖先推断方法应用于该算法,并将得出的结果与已知祖先数据进行比较,生成多个合成数据,以评估其推断患者遗传祖先的准确性。此外,通过使用合成数据,研究团队还能够根据其所依赖的参数优化算法的推断过程。


微信图片_20230117134829.png


图1. 使用数据合成从癌症衍生的分子数据推断遗传祖先的概述。来源:Cancer Research


研究团队纳入了TCGA-卵巢囊腺癌(TCGA-OV)、TCGA-乳腺癌祖先多样性子集(TCGA-BRCA)、Beat AML临床试验(Beat AML)和一项使用PDO的胰腺导管腺癌研究(PDAC)等四个数据集的数据(图2),并以Venn图的形式对所使用的数据进行汇总,这些数据包括癌症DNA(全外显子或全基因组)序列、癌症RNA序列和相匹配的正常DNA(全外显子或全基因组)序列。此外,研究团队还使用1,000个基因组项目(1KG)数据集作为参考,将其与患者分子数据进行比较,以推断大陆水平的全球血统。后者被定义为具有五个值的分类变量:非洲(AFR)、东亚(EAS)、欧洲(EUR)、美洲(AMR)和南亚(SAS)。

研究团队对1KG数据集进行了初步数据处理,标示其高频替代变异的基因组(HFS)位置作为祖先推断的基础,HFS位置所在的子集被称为高置信度基因型(HCG)集。进一步,研究团队对HCG基因组位置进行修剪,以减少相邻基因型之间的相关性,从而得到修剪后的高置信度基因型(PHCG)位置集。


微信图片_20230117134834.png


图2. 研究中使用的分子数据。来源:Cancer Research


遗传祖先推断的流程如图3所示,研究团队采用了主成分分析(PCA)与K近邻分类相结合的方法。对于每个队列中的患者子集,研究团队分别评估了参数K和D函数的祖先推断性能,并保留主要维度的数量,根据数据综合对其进行评估。


微信图片_20230117134838.png


图3. 遗传祖先推断的流程图。来源:Cancer Research


为验证算法的有效性,研究团队对四种癌症类型进行了研究,即胰腺腺癌(PDAC)、卵巢囊腺癌、以乳腺癌为代表的上皮性肿瘤以及以急性髓系白血病(AML)为代表的造血系统恶性肿瘤。研究团队选择了最佳范围内的D、K值对,并将其应用于TCGA-OV和TCGA-BRCA患者的无癌WES谱。结果显示,该算法得出的祖先推定结果与数据库资料一致。研究团队还将其与相匹配的基于无癌基因型的祖先推断进行了比较,对于Beat AML、TCGA-OV和TCGA-BRCA患者,其祖先推定结果与数据库资料一致。上述结果表明,在所有队列和分析模式中,该算法均显示出较高的准确率。


微信图片_20230117134842.png


图4. AMR特异性AUROC对推断参数D和K的依赖性。来源:Cancer Research


综上所述,研究团队开发了一种从癌症衍生的分子数据中进行准确、稳健地祖先推断的计算方法。该方法将一种基于PCA的祖先推断技术与使用合成数据进行推断参数优化的方法相结合,有助于遗传血统导向的癌症研究。研究团队还从已知背景的癌症和不相关无癌基因组中创建样本图谱,并利用已知血统的胰腺癌、卵巢癌、乳腺癌和血癌样本验证了该算法的性能,结果显示该算法准确率超95%。


参考文献:

Pascal Belleau et al, Genetic Ancestry Inference from Cancer-Derived Molecular Data across Genomic and Transcriptomic Platforms, Cancer Research (2022). DOI: 10.1158/0008-5472.CAN-22-0682.


894ba01ed5dfb2d99b6ca51913f1e28.png

责任编辑:豌豆射手


声明:本文系药智网转载内容,图片、文字版权归原作者所有,转载目的在于传递更多信息,并不代表本平台观点。如涉及作品内容、版权和其它问题,请在本平台留言,我们将在第一时间处理。

热门评论
请先 登录 再做评论~
发布

Copyright © 2009-2023 药智网YAOZH.COM All Rights Reserved.   工信部备案号:渝ICP备10200070号-3

渝公网安备 50010802001068号

投诉热线: (023) 6262 8397

邮箱: tousu@yaozh.com

QQ: 236960938