上海交大吕晖教授课题组提出新的基因组二代测序数据质量控制方法

近日,国际知名期刊《Communications Biology》在线发表了上海交大吕晖教授课题组题为“FVC as an adaptive and accurate method for filtering variants from popular NGS analysis pipelines”的最新研究成果。该研究提出了一种新的基因组二代测序数据质量控制方法,有效提升了二代测序检出的基因变异的可靠性。上海交大生命科学技术学院博士毕业生任永永、孔艳博士后为共同第一作者,生命科学技术学院吕晖教授和赵宏宇教授为共同通讯作者。

全基因组二代测序技术已广泛应用在儿科遗传疾病诊断、肿瘤基因组图谱分析、全基因组关联分析等基因组研究领域,但由于测序和分析误差,检出的SNV和INDEL变异类型中存在大量假阳性变异,给基因组图谱分析和遗传疾病的鉴别诊断带来了较大的噪声干扰。目前已有多个方法可用于过滤二代测序检出的假阳性变异,例如Frequency、Hard-Filter、 VQSR、GARFIELD和VEF,但这些方法在过滤假阳性变异的同时,损失了数倍的真变异,严重干扰了下游的遗传疾病诊断和分子功能研究。

为解决上述问题,吕晖团队构建了自适应过滤方法FVC (Filtering for Variant Calls),用于对不同遗传变异分析软件(例如GATK HaplotypeCaller、Mutect、Varscan和DeepVariant)检出结果中的假阳性变异进行过滤。

研究结果显示,相较于其它过滤方法,新方法FVC过滤掉了更多的假阳性变异,同时召回了其它过滤方法遗漏的~51-99%真阳性变异,当使用评价指标OFO(Odds of false omission, 损失的真阳性变异个数与过滤掉的假阳性变异个数之比,又名真阳性损失比)进行性能评价时,FVC将真阳性损失比OFO从0.05-1661.28降低至0.02-0.57。为排除潜在的数据泄露和过拟合导致的评估偏差,分别使用留一染色体交叉验证(leave-one-chromosome-out cross-validation)、留一个体交叉验证(leave-one-individual-out cross-validation)和独立测试集进行验证,FVC同样获得了最佳性能。

该工作得到上海交通大学高性能计算中心(HPC)、沈南鹏上海交通大学“医学研究基金”和中国国家重点研发计划(2018YFC0910500)的支持。

论文链接:https://www.nature.com/articles/s42003-022-03397-7

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关