Cancer Res｜解码癌症遗传祖先的新算法

导读：从癌症衍生分子数据进行遗传血统推断

已发表的许多大规模癌症基因组研究表明，不同祖先背景群体之间的疾病分子组成存在差异，种族和族裔是多种癌症发病率、临床病程和结局的重要决定因素。癌症衍生数据的祖先特征主要有两个来源：患者自我识别的种族和族裔（SIRE）和患者的无癌基因型。但SIRE往往不完整或不准确且通常不与遗传血统一致，这就导致医生无法捕捉到完整的患者祖先信息，特别是在混合血统的情况下。从无癌组织中对患者的DNA进行基因分型，往往可以获得更准确和详细的祖先特征，但并不适用于所有类型的癌症（如白血病）。在此情况下，从肿瘤本身的核酸序列来推断患者遗传祖先是十分必要的。

近日，美国冷泉港实验室（CSHL）研究团队在Cancer Research杂志上发表了题为“Genetic Ancestry Inference from Cancer-Derived Molecular Data across Genomic and Transcriptomic Platforms”的文章。研究团队揭示了癌症和种族/族裔之间的谱系关联，并开发了一种新算法，能够在缺乏匹配无癌基因组数据的情况下，从肿瘤DNA和RNA中准确、可靠地推断患者遗传祖先。该研究有助于临床医生制定早期癌症检测和个性化治疗的新策略。

文章发表于Cancer Research

研究团队开发了一个数据合成框架，从癌症衍生数据（包括全外显子组、转录组和靶向基因组）中来推断遗传祖先（算法流程如图1所示）。该算法首先对患者样本和已知祖先的基因组数据进行数据合成。研究团队将已建立的祖先推断方法应用于该算法，并将得出的结果与已知祖先数据进行比较，生成多个合成数据，以评估其推断患者遗传祖先的准确性。此外，通过使用合成数据，研究团队还能够根据其所依赖的参数优化算法的推断过程。

微信图片_20230117134829.png

图1. 使用数据合成从癌症衍生的分子数据推断遗传祖先的概述。来源：Cancer Research

研究团队纳入了TCGA-卵巢囊腺癌（TCGA-OV）、TCGA-乳腺癌祖先多样性子集（TCGA-BRCA）、Beat AML临床试验（Beat AML）和一项使用PDO的胰腺导管腺癌研究（PDAC）等四个数据集的数据（图2），并以Venn图的形式对所使用的数据进行汇总，这些数据包括癌症DNA（全外显子或全基因组）序列、癌症RNA序列和相匹配的正常DNA（全外显子或全基因组）序列。此外，研究团队还使用1,000个基因组项目（1KG）数据集作为参考，将其与患者分子数据进行比较，以推断大陆水平的全球血统。后者被定义为具有五个值的分类变量：非洲（AFR）、东亚（EAS）、欧洲（EUR）、美洲（AMR）和南亚（SAS）。

研究团队对1KG数据集进行了初步数据处理，标示其高频替代变异的基因组（HFS）位置作为祖先推断的基础，HFS位置所在的子集被称为高置信度基因型（HCG）集。进一步，研究团队对HCG基因组位置进行修剪，以减少相邻基因型之间的相关性，从而得到修剪后的高置信度基因型（PHCG）位置集。

微信图片_20230117134834.png

图2. 研究中使用的分子数据。来源：Cancer Research

遗传祖先推断的流程如图3所示，研究团队采用了主成分分析（PCA）与K近邻分类相结合的方法。对于每个队列中的患者子集，研究团队分别评估了参数K和D函数的祖先推断性能，并保留主要维度的数量，根据数据综合对其进行评估。

微信图片_20230117134838.png

图3. 遗传祖先推断的流程图。来源：Cancer Research

为验证算法的有效性，研究团队对四种癌症类型进行了研究，即胰腺腺癌（PDAC）、卵巢囊腺癌、以乳腺癌为代表的上皮性肿瘤以及以急性髓系白血病（AML）为代表的造血系统恶性肿瘤。研究团队选择了最佳范围内的D、K值对，并将其应用于TCGA-OV和TCGA-BRCA患者的无癌WES谱。结果显示，该算法得出的祖先推定结果与数据库资料一致。研究团队还将其与相匹配的基于无癌基因型的祖先推断进行了比较，对于Beat AML、TCGA-OV和TCGA-BRCA患者，其祖先推定结果与数据库资料一致。上述结果表明，在所有队列和分析模式中，该算法均显示出较高的准确率。

微信图片_20230117134842.png

图4. AMR特异性AUROC对推断参数D和K的依赖性。来源：Cancer Research

综上所述，研究团队开发了一种从癌症衍生的分子数据中进行准确、稳健地祖先推断的计算方法。该方法将一种基于PCA的祖先推断技术与使用合成数据进行推断参数优化的方法相结合，有助于遗传血统导向的癌症研究。研究团队还从已知背景的癌症和不相关无癌基因组中创建样本图谱，并利用已知血统的胰腺癌、卵巢癌、乳腺癌和血癌样本验证了该算法的性能，结果显示该算法准确率超95%。

参考文献：

Pascal Belleau et al, Genetic Ancestry Inference from Cancer-Derived Molecular Data across Genomic and Transcriptomic Platforms, Cancer Research (2022). DOI: 10.1158/0008-5472.CAN-22-0682.

责任编辑：豌豆射手

声明：本文系药智网转载内容，图片、文字版权归原作者所有，转载目的在于传递更多信息，并不代表本平台观点。如涉及作品内容、版权和其它问题，请在本平台留言，我们将在第一时间处理。

相关标签：全球,癌症基因组,癌症衍生数据 0 0

Cancer Res｜解码癌症遗传祖先的新算法

• Cancer Res｜解码癌症遗传祖先的新算法

研发/政策栏目

药圈/会展栏目

商业/器械栏目

前沿/报告栏目

合作咨询

友情链接