目前人类虽然已掌握数以亿计的分子数量,但也只占未知分子数目的一小部分,阻挡化学家发现未知分子的一个重要因素是缺乏分子的合成路线,而有机合成能够为化学家们提供一种从简单结构分子破碎重组合成复杂的分子的方法。在有机合成领域早期主要依靠化学家累计的经验及制定的模板来进行合成实验,随着分子机器学习中的生成模型逐渐成熟,用数据驱动的方法应对有机合成的挑战成为当下化学产品研究及研发的重要手段之一。
随着人工智能技术日渐成熟,其在化学领域应用优势也逐渐展现出来,有机合成预测就是其中之一。在传统的化学实验室中,实验员想了解两种分子的产物,必须通过真实的化学实验才能得到结果。而借助国工数据大脑平台中有机合成算法,实验员仅通过简单的点击就可以得到两种分子反应的多条预测结果,以供相关人员进行参考。这不仅能够节省时间成本,同时还能够降低了相关的实验成本,及相关的实验风险。
国工数据大脑平台是一个集成人工智能算法、统计学算法的数据分析平台,服务于传统行业的智能化改造升级。经过多年的积累,国工数据大脑平台在数据、算法等方面具有明显的优势。针对于有机合成预测算法,其主要优势如下:
第一,集成于国工数据大脑平台,降低了该算法的使用门槛,使用者仅需输入参与反应的SMILES代码即可;具有较快的运行速度,可以快速响应用户的需求;
第二,建模数据规模庞大,主要得益于国工智能在化工行业深耕多年,慢慢积累得来;
第三,采用transformer AI技术框架进行训练,克服对既有经验以及模板库的依赖,同时拥有较高的预测准确率;
第四,数据、模型可信度高,每条数据均出自于相关专利文献,并且模型的预测线路均参考相关文献专利;
第五,多条预测线路展示,该算法可以为每个预测线路进行可靠性计算,并按照可靠性高低展示给用户。
首先,打开国工数据大脑平台。依次进行操作:机器学习-->工作台—>新建正向合成计算流程—>拉取正向合成组件(图1)
图1
分析结果
图3
SMILES表达式:全称Simplified molecular input line entry system,是一种简化分子线性输入规范,一种用ASCII字符串明确描述分子结构的规范。
分子式填入规则:反应分子的SMILES表达式中间由“.”进行隔开。
有机合成预测应用场景:各大化学研发中心的小分子研发实验室,以及各高校化学研究实验室。