化学系李志铭、张俊良教授团队CRPS:小数据不对称催化反应预测机器模型中的“准过渡态”通用描述符
时间:2024-07-02 浏览次数:221

深度学习在对映选择性预测方面展现出了巨大潜力,现有预测模型通常需要大量稳态结构描述符以及大规模数据,并面临描述符选择的困难。引入基于准过渡态(quasi transition state, qTS)的描述符提供了一种缓解这些挑战的可能途径。然而描述符选择的挑战仍然存在。为此李志铭、张俊良教授团队提出了一种基于类过渡态通用描述符(universal descriptor, UD)的新型小数据机器学习模型(UD-qTS),将两个非对映异构类过渡态之间的关键属性差别,包括类过渡态单点能(ESP)、前沿分子轨道能量(EFMO)和核心原子电荷(QATOM),作为通用描述符。该模型有效性已用脯氨酸及其衍生物催化的分子间aldol反应以及Pd催化的Negishi反应进行了验证。仅用小维度描述符集(12个描述符,其中3个实验变量、9个理论通用描述符)、小数据量训练数据(分别为143和30个反应),以及Matlab内嵌的简单前馈神经网络(aldol反应为两个隐藏层、5+2个隐藏神经元,Negishi反应为一个隐藏层、6个隐藏神经元)进行拟合,外部测试的MAE可低至0.187 kcal/mol,R2高至0.897,与大数据量机器学习模型相当。此外在该模型中,他们还首次提出了一种使用笛卡尔力来纠正类过渡态和真实过渡态之间差异的新方法。这种UD-qTS策略避免了繁琐的大规模描述符探索和筛选,可操作性,为小数据驱动的对映体选择性预测提供了一种高效的选择。鉴于训练模型原理类似,该模型也可用于有机化学反应中其他选择性的预测,如化学选择性和区域选择性等。当然,与大数据量的机器模型相比,由于训练样本容量不够大,模型难以兼顾拟合与预测能力,继续拓展训练样本容量,覆盖更多反应条件、底物和催化剂,可以预见模型表现会有进一步的提升。






这一研究成果于2024年6月12日以“Universal descriptors of quasi transition states for small-data-driven asymmetric catalysis prediction in machine learning model”为标题发表在Cell Report Physical Science上,化学系本科生陈冠名为第一作者,通讯作者为李志铭副教授和张俊良教授。该研究工作得到了国家自然科学基金、 科技部重点研发、上海市科委的资助。

       全文链接:https://doi.org/10.1016/j.xcrp.2024.102043



(文/李志铭、张俊良教授团队)