我系乔亮研究员团队报道基于深度学习的DIA蛋白质组分析新方法
时间:2020-03-12 浏览次数:1297

        数据非依赖性采集(DIA)是近几年来兴起的一种新的质谱数据采集方式。不同于传统的数据依赖性采集(DDA)策略,DIA将整个扫描范围划分为若干个可变窗口,将每个窗口内的所有母离子进行碎裂,采集所有母离子的碎片离子,从而完整地获得样本中所有母离子的全部碎片信息。基于DIA的定量蛋白质组具有通量高、稳定、准确性好等优点,对于大规模蛋白质组的定量分析具有显著优势。然而,DIA数据异常复杂,通常需要对同一样本预先利用DDA实验构建数字谱图库,使得DIA的数据挖掘受限于DDA实验。

        近日,我系乔亮研究员团队与合作者利用深度学习技术从肽段或蛋白质序列构建预测谱图库,实现了DIA蛋白质组数据的直接分析。论文“In silico spectral libraries by deep learning facilitate data-independent acquisition proteomics”在线发表于《Nature Communications》2020, 11, 146。论文的共同第一作者是复旦大学化学系17级直博生杨奕和复旦大学生物医学研究院刘晓慧老师,通讯作者是复旦大学化学系乔亮研究员。
        研究人员设计了基于卷积神经网络和循环神经网络的深度神经网络模型来预测肽段的二级质谱图(MS/MS)和归一化保留时间(iRT),由DDA鉴定得到的肽段列表生成DIA分析所需的谱图库,并在HeLa细胞数据集上将DeepDIA与另外一种现有的基于深度学习的谱图预测工具Prosit(Nature Methods 2019, 16, 509–518)进行了比较测试。结果表明,与使用通用模型来生成谱图库相比,使用DeepDIA构建专用于特定仪器的模型预测生成的谱图库质量更好,DIA数据分析检测到的肽段和蛋白数量更多,重复性更好,效果接近DDA构建的谱图库:
 

        研究人员还设计了预测肽段在质谱中的可检测性的模型,实现了由蛋白序列构建预测谱图库。从SwissProt物种数据出发,预测蛋白的理论酶切肽段的可检测性,筛选可检测性分数达到一定阈值的肽段来构建谱图库。在HeLa细胞和小鼠组织样品数据集上的测试结果表明,与考虑全部理论肽段相比,可检测性筛选能降低DIA分析的假阳性率并提高蛋白鉴定量。最终实现了完全不需要DDA实验,从SwissProt蛋白序列数据库出发的DIA数据直接解析。研究人员还将DeepDIA用于未去高峰度蛋白的血清样品的DIA数据直接分析。与传统方法相比,DeepDIA检测到蛋白的数量为DDA建库的两倍以上。
        本研究中训练深度神经网络模型所需数据量仅为HeLa细胞样品分馏DDA的鉴定结果,通常可以在一天的时间内完成训练数据的采集。模型训练只需要普通的台式工作站,可以在数小时内完成。研究人员期望,未来蛋白质组学实验室可以利用深度学习技术构建专用于每一台仪器的模型,将其用于该仪器DIA数据的分析,而无需另外进行DDA实验。同时,深度学习也可以在质谱组学大数据分析的其他方面发挥作用。
        DeepDIA开源代码:https://github.com/lmsac/DeepDIA
        全文链接:https://www.nature.com/articles/s41467-019-13866-z