研究方向

当前位置: 中文主页 >>研究方向

基于机器学习的生物活性理论预测和筛选方法研究

先导结构的发现和优化作为药物发现阶段的研究核心，往往需要花费数年时间和高达数亿美元的投入，是药物研发的关键技术瓶颈。计算机辅助药物设计（CADD）作为一个日趋完善的药物发现手段，主要包括虚拟筛选和药物从头设计两种策略，已经极大提升了新药设计和开发的效率。然而，这些方法的出现并未明显扭转新药研发成功率持续走低的势头，主要有三方面原因：1）现有药物设计和虚拟筛选方法精度有限，发现高质量活性分子的成功率还达不到预期效果；2）虚拟筛选技术使用的数据库多为已经注册过的分子，这些分子组成的化学空间非常有限，筛选技术并不能完全地发掘全新的化合物结构；3）药物从头设计可以探索未知的化学空间，但是这些传统方法生成分子的新颖性与药物性质之间往往存在巨大冲突，不能有效生成“高质量”的候选分子。因此，当今药物的研发环境依然需要开发出精度高、偏差小的新技术新方法，发现高质量的活性先导化合物来提高新药研发的成功率。我们课题组将从两个方面实现分子生物活性虚拟筛选研究。一是基于人工智能技术发展高精度的生活活性理论预测和筛选方法（如基于结构的分子对接重打分算法和基于配体的计算生物指纹谱算法）从现有虚拟筛选数据库中发现高活性高成药性的潜在生物活性分子；二是基于人工智能技术发展高精度高效的药物分子结构智能生成和快速优化算法从更广阔的化学空间中进行先导化合物的发现和探索。

微信图片_20210907124945.jpg

① 基于靶标结构和配体的分子活性虚拟筛选方法研究

计算机辅助药物设计（CADD）方法包括基于靶标结构的（分子对接）和基于配体（QSAR和相似性搜索）的分子活性虚拟筛选过方法。制约高通量筛选（HTS）技术的关键在于如何有效鉴别实验中产生的假阳性化合物，也被称为泛活性筛选干扰化合物（PAINS）或者频繁命中化合物（FH）。目前现有的FH筛选方法对FH产生的机制理解不够，无法清晰针对特定类型的FH进行分析，导致目前的FH预测方法精度低、适用范围窄。针对HTS中FH鉴别难题，申请人在国际上首次系统性分析了FH产生的多种复杂机制，将其归纳为五种主要机制类型（胶体聚集化合物、荧光酶抑制剂、自荧光化合物、易反应化合物和混乱化合物）；系统收集和构建了五种机制类型的FH数据库（60余万分子），并系统评测了PAINS警示子结构规则在不同机制FH下的预测性能，发现广泛使用的PAINS警示子结构规则有很大局限性，为新一代FH警示子结构的优化开发指明了新的发展方向。针对不同机制的FH，利用申请人开发的化学信息学算法和分子表征技术，创造性地发展了胶体聚合物、荧光酶抑制剂、自荧光化合物等关键FH机制类型的预测模型和在线平台，所建模型在大型测试集上的预测精度均在83%以上，显著优于目前广泛使用的PAINS筛选规则（平均精度为57.6%），且模型预测快速高效，可用于大型数据库的FH评估。

基于分子对接的虚拟筛选成本低、效率高，已成为药物发现的关键技术，但分子对接采用的打分函数计算效率高但准确性相对较低。为提高虚拟筛选的预测精度，申请人围绕靶标-配体相互作用预测展开了深入系统的方法学研究，申请人在对14种经典打分函数系统评估的基础上，采用多种人工智能（AI）技术构建了基于经典打分函数能量项的个性化打分函数，并深入探讨了不同机器学习算法、训练集和测试集靶标结构和序列相似性、以及不同能量项组合对预测精度的影响，测试结果表明采用集成学习算法和整合多类型能量项所构建的打分函数具有更优的预测性能，明显优于传统打分函数，有望提升虚拟筛选的预测精度；基于最新集成学习算法XGBoost结合分子对接辅助能量项发展了一种可针对特定靶标进行虚拟筛选的新型打分函数EAT-Score，有效解决了经典打分函数线性模拟简单、数据利用率不充分、结构不相似靶标性能不佳及经典打分函数解释性不足等系列影响经典打分函数性能的难点问题，在多个多样性靶点数据集上的验证结果表明该方法可显著提升虚拟筛选效率并且优于其他同类型的筛选辅助模型。

基于药物是通过和体内蛋白质相结合来发挥其效应的思想，创造性地提出了利用计算生物靶标谱来进行化学小分子表征的新思路。计算生物靶标谱的优点是利用和蛋白的结合关系来表征分子的功能信息，消除了对分子结构特征信息的依赖性，可以有效实现对分子结构差异大的化合物性质的准确评估和检索，从而实现分子的骨架跃迁研究。将该表征应用于药物毒性评估、药物-药物相互作用预测、药物作用机制评估及相似性搜索研究，充分证明了该生物谱优秀的预测性能和骨架跃迁能力。通过计算生物靶标谱进行大规模相似性筛选，成功获得了强效PARP1抑制剂分子。

我们将继续利用新型的人工智能技术和机器学习算法发展更加高效率高精度的虚拟筛选方法和策略来提升先导化合物发现的效率，从而加速药物发现的进程。

② 基于人工智能技术的药物分子结构的智能生成和优化研究

先导结构的发现和优化作为新药发现阶段的研究核心，往往需要花费数年时间以及高达数亿美元的资金，是药物研发的关键技术瓶颈。药物分子设计可以看作一个多参数优化问题，其目标是设计出具有多种理想药学性质的新分子。据估计，目前可开采的化学空间约为10²³至10⁶⁰，在如此巨大的化学空间如何有效实现分子结构的智能生成和快速演化搜索是药物分子设计所面临的巨大挑战。众所周知，传统药物设计需要经过药物化学家的分子设计、分子实验合成、活性实验测试、数据分析，这样一个多次循环过程实现先导结构的发现和优化，其特点是周期长、投入大、门槛高、单步骤行进；而基于AI的药物设计则可以通过计算机实现智能的分子生成、精确的药物性质预测，综合的多目标性质评价、和快速的分子优化这样的多次迭代循环实现先导结构的发现和优化，相比于传统药物设计，基于AI的药物设计则具有更加自动化、流程化和多任务并进的特点，可以有效实现药物设计的自动闭环系统，能够极大提高先导结构发现和优化的效率。而在这个过程中，基于AI技术的分子结构的生成和优化是实现药物设计闭环系统的关键技术瓶颈。虽然深度学习在药物性质预测和分子结构生成方面取得了许多成果，不过我们的前期工作表明：已报道的深度学习框架存在生成分子的化学空间狭窄、对类药性空间的探索和开采能力有限、难于同时优化多个关键药学参数以及不能有效解决结构新颖性和理想性质之间的冲突等问题。此外，巨大的成药性空间的快速探索和开采需要实现基于国产超级计算机系统的大规模异构并行加速技术的开发和部署。我们课题组主要利用神经机器翻译、多目标优化、多任务及自监督学习等新型人工智能技术开发药物分子结构智能生成和优化的新技术新方法，并结合天河新一代自主超算系统的新型体系结构，实现大规模异构并行的智能生成和优化加速技术的开发和部署，旨在发展具有自主知识产权的高效全新药物设计算法和软件系统, 推动我国AI药物设计核心技术研究以及创新药物研究的发展。

先导分子结构的智能生成和快速优化是实现基于人工智能药物设计进行先导结构发现和优化闭环系统的关键技术瓶颈。我们课题组目前针对先导结构成药性优化困难的问题，基于匹配分子对分析技术开发了用于先导分子结构成药性和安全性优化改造的化学转化规则数据库系统OptADMET，包括涉及32个成药性和安全性终点的146450个化学转化规则，是目前世界上最大的用于成药性和安全性优化的化学转化规则数据系统之一。在该数据库基础上，进一步开发了基于化学转化规则的先导结构成药性优化算法并构建在线计算平台。利用基于深度学习的神经机器翻译模型和多目标进化算法相结合开发了先导分子结构成药性优化的分子生成和优化算法并构建了在线计算平台ChemMORT，有效解决了药物研发中在保持分子活性的情况下进行成药性和安全性优化和改造的困难问题。为了解决分子生成算法生成分子结构多样性和新颖性较差的困难问题，发展了基于模型蒸馏的条件Transformer模型用来实现对化学空间局部区域的细致开采，并结合强化学习的多目标评价技术来快速分子结构的快速优化；在和目前报道的分子生成和优化算法比较中，我们开发的MCMG算法在分子多样性、新颖性、成药性和合成性等多个评价指标方面获得了最好的结果。我们将继续基于新型人工智能技术开发更加高效的药物分子智能生成和优化算法，用于先导化合物的发现和先导结构的优化改造。

曹东升

研究方向

基于机器学习的生物活性理论预测和筛选方法研究