HelixGEM-2类别文心·生物计算大模型应用小分子药物研发模型概述HelixGEM是业界首个基于几何构象增强的化合物表征模型,引入化合物的三维空间信息,在14个药物属性预测相关的benchmarks上效果达到业界最优,发表在 Nature Machine Intelligence 2022年2月刊。了解更多请点击跳转HelixGEM-2是业界首个考虑原子间多体交互、长程相互作用的模型,融合量子
HelixGEM-2
类别文心·生物计算大模型
应用小分子药物研发
模型概述
HelixGEM是业界首个基于几何构象增强的化合物表征模型,引入化合物的三维空间信息,在14个药物属性预测相关的benchmarks上效果达到业界最优,发表在 Nature Machine Intelligence 2022年2月刊。了解更多请点击跳转
HelixGEM-2是业界首个考虑原子间多体交互、长程相互作用的模型,融合量子力学第一性原理,创新性地提出多轨机制,每个轨道对化合物的不同阶的多体集合进行长程建模,在量子化学属性预测和虚拟筛选双场景上达到领先效果。
模型说明
在微观层面上,化合物的性质取决于它的分子内部相互作用以及与环境中其他分子的相互作用,这些相互作用的尺度是如此之小,以至于无法通过经典力学规律来描述,而必须考虑非经典的量子力学效应。从量子力学的角度来看,化合物及其环境是一个多粒子体系,预测其性质的难点在于如何准确描述粒子间复杂的多体(Many-body)和长程(Long-range)相互作用。为了描述这些相互作用,螺旋桨团队受到量子力学仿真方法的启发(如:密度泛函理论 density functional theory,简称 DFT),创新性地设计网络结构,从而高效地建模化合物中的多体以及长程相互作用,以全面提升化合物建模在属性预测与药物筛选中的效果。
化合物中的多个原子作为一个整体可看作是一个多体,而多体之间的关系建模已被量子力学的方法证明其重要性。一个化合物被表示为多个高阶张量,分别表示单体(1-body),双体(2-body),三体(3-body),…,的表征。HelixGEM-2 的网络中包含多个轨道(track),每个轨道分别学习同阶的多体之间的长程关系,并更新相应的表征。此外,不同阶的多体的信息亦可跨轨道进行相互间的传输,进一步提升建模的效果。
直接完整建模所有多体之间关系的开销代价非常大,建模包含 N 个原子的化合物的所有 m 阶多体间关系的时间复杂度为 O(N^(2m)),而当原子数量与阶数增加时这个复杂度往往难以容忍。鉴于此,HelixGEM-2 堆叠多个维度的 Axial Attention 模块去逼近直接完整建模的效果,极大地降低了时间复杂度。
git clone https://github.com/PaddlePaddle/PaddleHelix.git git checkout dev cd apps/pretrained_compound/ChemRL/GEM-2
wget https://baidu-nlp.bj.bcebos.com/PaddleHelix/datasets/compound_datasets/pcqm4mv2_gem2.tgz mkdir -p ../data tar xzf pcqm4mv2_gem2.tgz -C ../data
wget https://baidu-nlp.bj.bcebos.com/PaddleHelix/models/molecular_modeling/gem2_l12_c256.pdparams
mkdir -p model
mv gem2_l12_c256.pdparams model
sh scripts/train.sh
sh scripts/inference.sh
详见github 文档
HelixGEM-2 不仅在 PCQM4Mv2 上取得了不俗的成绩,大幅度超越无多体建模或长程建模的方法,而且也在在药物研发直接相关的虚拟筛选数据集 LIT-PCBA 上,超越现有方法,展现出巨大的应用潜力。
7x24小时服务热线:400-996-8756
公司地址:河南省郑州市姚砦路133号金成时代广场6号楼13层
法律顾问:河南天坤律师事务所-段志刚律师