寻找******的反应条件一直是化学家们致力于解决的关键瓶颈问题,然而,由于反应空间具有高维度,通常难以采取有效手段快速地确定反应条件。人类若想培养预测反应的直觉,并无任何捷径可走,必须对海量科学文献均有所涉猎,对其中涉及的化学反应机理有充分的了解,同时伴以多年实验操作中积累的大量经验才能勉强达到设计实验条件的能力标准。综上,在过去相当长的时间内,化学领域的研究员们在对反应条件的筛选上不得不耗费大量的时间精力和实验资源,严重阻碍了科研效率的有效提升。
值得庆幸的是,近些年人工智能在多个领域均展现了巨大的技术优势,在化学领域同样有其用武之地。国工智能顺应时代潮流,将计算化学与人工智能技术进行深度融合,争做化学AI辅助研发领跑者,致力于为化学家们打造最专业的“AI工具箱”。近期,国工智能推出了“反应条件预测模型”,该方法能够帮助化学科研工作者减少时间和实验成本,降低失败风险和次数,快速高效地达到实验目的。
1、国工智能基于自主研发的文献智能提取技术,从数以百万的文献资料库中完成了对海量化学反应数据的提取和存储,形成了庞大的结构化反应数据集,数据丰富且质量高,为构建有效模型奠定了坚实的数据基础;
2、在前述形成的数据集基础之上,利用一千多万条有机合成反应数据,构建神经网络,每条反应数据由反应物smiles、产物smiles及对应的反应条件催化剂catalyst,溶剂solvents,试剂reagents与温度temperature构成,其中反应条件作为每条反应数据的标签。与传统算法相比,该模型的可信度高,泛化能力强,对反应条件的预测准确率均能够达到80%以上,部分甚至可达90%;
3、模型的通用性强,且操作简单易上手,对用户友好,具有一定的鲁棒性和可迁移性,能够根据客户的实际业务需求,快速推荐出多样化的反应条件组合,大大降低了研究人员的试错成本,同时减轻了实验样品的浪费,更快更好地获得理想的实验参数和结果。
接下来,我们将以一个具体的化学反应为例,对本模型的预测过程及结果进行介绍。这里选取2,3,4-三甲基苯酚与异氰酸甲酯合成2,3,5-三甲威的反应,如图1所示。
图1 化学反应示例
首先,我们需要确定反应物和产物,并采用SMILES表达式表示分子,从而构建出化学反应式,例如本案例中的反应式如下:
CC1=CC(=C(C(=C1)O)C)C.CN=C=O>>CC1=CC(=C(C(=C1)OC(=O)NC)C)C
注:SMILES表达式(Simplified Molecular Input Line Entry System),是一种简化分子线性输入规范,用ASCII字符串明确描述分子结构。符号“>>”用于划分反应物和产物,符号左边代表反应物,同理,右边则代表产物;此外,化学反应通常不止一种反应物或产物,我们采用符号“.”对不同的物质进行分隔,针对反应物而言,本例中有两个,分别为CC1=CC(=C(C(=C1)O)C)C(2,3,5-三甲基苯酚)以及CN=C=O(异氰酸甲酯),而针对产物,由于通常仅需关注主目标产物,因此此处产物仅有一种,即CC1=CC(=C(C(=C1)OC(=O)NC)C)C(2,3,5-三甲威)。
其次,打开国工智能平台,进入反应条件预测模型界面,并在上方输入框中按照指定格式分别输入反应物和生成物的SMILES结构表达式,操作简单快捷,对用户友好,如图2所示。
图2 反应条件预测界面
最后,输入完成后,模型就能够快速运行出对反应条件的多种不同预测结果并可视化展示,每一行代表着不同的实验条件组合。本方法不仅能够针对试剂、催化剂、溶剂这类离散值给出具体的分类结果,而且能够针对温度这种连续值做回归预测,进而输出一个具体的温度数值。此外,还提供了做出本条预测的机理说明和文献追溯入口,做到了有据可依,证明该结果有坚实的理论作支撑。模型给出的预测结果可供相关实验和研究人员参考。
值得一提的是,该反应条件预测并不是一个孤立的功能模块,完全可以尝试与平台上现有的功能和组件进行有机融合,从而实现“1 + 1 > 2”的效果,满足用户的多种个性化需求,为客户带来切实的收益。这也是我们后续计划要实现的目标。
① 反应条件预测与实验优化的联动效应
国工智能推出的AI实验筛选方案,已经在多个实际业务场景中落地,图3即为实验优化中某个流程的可视化展示。
图3 实验优化功能
但问题在于,实验因素本身依旧需要人为指定,尚不确定在人工考虑的因素之外,是否有其他因素值得带入实验探索空间。因此,反应条件预测可作为实验优化的前序联动环节,除协助实验员挑选实验因素外,也可对经验之外可能存在的实验因素进行有效补充。
② 反应条件预测与逆向合成的叠加效应
目前,国工智能逆向合成AI已经能够将目标化合物分解为多个可购的小分子化合物,能够以最快速最高效的方式找到最理想的逆向合成路径。反应条件预测模型与逆向合成模型融合将会产生叠加效应,进一步增强AI的推演能力。逆向合成模型将会推荐出几十条合成路线,反应条件预测模型则可针对路线中所有反应步骤进行参数的二次预测,从而一键完成从路线筛选到反应条件确认的全过程。具体的实现流程框架如图4。
图4 反应预测与逆向合成的结合
1.针对用户提供的不同反应数据,预测出多种可能的反应条件组合,包括所需试剂、溶剂、催化剂及反应温度等,以供研究人员参考;
2.可与现有国工智能数据大脑平台功能组件进行联动和融合,更好地助力于化学研发工作。