新方法缩短蛋白质设计研发周期
“这三篇论文虽然分别提出了计算生物学领域的三个不同的方法,也有不同的应用,但基本想法是相同的,暨底层预训练大模型加上层的强化学习。”对于课题组最近的三篇论文,沙特阿卜杜拉国王科技大学(KAUST)终身正教授、博士生导师表示。
图丨高欣(来源:)
“这种逻辑与 ChatGPT 很类似,但同时又在技术上优于后者。在 ChatGPT 中,GPT 是底层预训练大模型,用来学习数据本身的分布,而 Chat是上层的强化学习,用来给底层生成模型的生成进行反馈。而KAUST与联合实验室开发的强化学习算法,因为要同时关注多个指标,所以是多指标同时优化的强化学习,而不是 ChatGPT 这种单指标优化的强化学习。因此,从这个角度来说,我们的工作在一两年前启动的时候,其理念就已经非常先进,甚至于比 2023 年年初才风靡的 ChatGPT 还要领先。”说。
(资料图片)
近年来,一直在计算机科学与生物学的交叉领域深耕,促成了AI+生物科技产学研协作平台的建立,依托该平台发表了上述三篇同系列的论文,以下为读者一一介绍。
开发深度学习模型,预测新冠病毒变种进化
新冠病毒是人类进入信息时代以来第一次真正意义上的“大流行”,它的演化处于持续不断的状态,从最初的野生型,到Alpha、Beta、Delta、Omicron,再到最近的XBB 家族,每一次新变种的产生,都会在人类中引发一股新的感染高峰。
如果我们能像预测天气一样,预测未来可能会出现的新的病毒变种,那就可以通过提前设计并普及疫苗的方式做好防护准备。
不过,进化通常是具有随机性的,生物体的“黑盒”性质和个体差异更是让此过程难以追根溯源。在新冠病毒大流行初期,人类就研发了多种疫苗。与此同时,为了应对这些压力,病毒也会朝着“免疫逃逸”的方向进化。这主要是因为,新冠病毒已经经历了多轮筛选,比如疫苗诱导和自然感染后人体产生的抗体等,只有能逃脱“抗体”的病毒,才有可能成为新的流行株。
基于此,团队提出了全新的研究范式,即在给定现有病毒的基础上,确定“免疫逃逸”的方向,并沿着这个方向寻找病毒变种。而在这种条件下找到的变种,极有可能就是未来的流行株。
利用深度神经网络并结合实验数据,他们确定了“免疫逃逸”的方向;同时,用“遗传算法”模拟病毒在生物体中的进化过程,找到了可能会在未来爆发的、存在威胁的病毒变种。
具体来说,该团队通过元学习开发了 ESM 模型,并结合 AlphaFold2、图模型和生物实验室的数据对其进行了微调,使其能更好地预测新冠病毒的免疫逃逸能力。这是也模型的前半部分,建立在蛋白质预训练大模型的基础之上。
模型的另一部分,则是一种名为遗传算法的特殊的搜索算法。指出:“这种算法和自然界病毒的演化方式非常相似,和生成式 AI 关系不大。生成式 AI 本身太不可控,任何将其与病毒联系起来的想法都是相当危险的。”
据了解,基于该团队开发的模型,他们在 以及 出现之前,就已经预测到了这些变种。
2023 年 6 月 13 日,相关论文以《利用深度学习预测新冠病毒的抗原进化》()为题在 Nature Communications上发表[1]。
图丨相关论文(来源:Nature Communications)
阿卜杜拉国王科技大学 Wenkai Han、Ningning Chen 和 Xinzhou Xu 为共同一作,教授、香港中文大学助理教授 以及中科院计算技术研究所副研究员担任论文的共同通讯作者。
据介绍,这篇论文的审稿人认为研究非常新颖和可靠,又具有非常高的现实意义,不仅可以用来指导新疫苗的开发,也能够提高卫生部门对新变种的防护意识。
“事实上,在预印本刚出现的时候,我们的论文就在推特上引发了激烈的讨论,有上万的浏览量和数百的转发。欧美的科学家们和普通民众都对我们模型的结果深感震撼,并呼吁他们的政府重视新疫苗的开发。”说。
从短期来看,虽然“大流行”在各国已经纷纷宣告落幕,但病毒本身尚未消失,因此仍需要对其进行关注和监测。从长期来看,该研究范式也可以在其他流行病毒研究中获得应用,如流感和艾滋病等。因此接下来该团队将进一步完善研究体系,并将其拓展至其他流行病毒的研究中。
此外,他们还想探索病毒进化和疫苗设计之间的结合,并基于其对病毒未来的变化预测,设计“通用疫苗”。
表示:“这需要涉及到多个实验室的合作以及工业界相关的合作,是一个很大涉及面很广的问题,但我相信这一新的研究范式能为人类带来新的变化,让我们更好的地学会‘与流行病毒战斗’。”
让 AI 在制药领域实现突破,缩短药物的研发周期
小分子药物和抗体的开发过程具有诸多相似之处,比如,都需要先找到与目标作用位点有良好结合性能的先导化合物,然后不断优化各种属性以达到预期效果。对于小分子药物来说,这些属性包括目标亲和力、药物样性、代谢速度和毒性等。对于抗体而言,这些属性包括靶点的亲和力、特异性、黏附性、代谢性能和免疫原性等。
这个过程既耗时,成本也很高。但如果能够通过计算方法提高这一步骤的效率,便可大大缩短新药的研发周期。
一方面,为给抗体药物研发过程中的多属性优化提供新的解决方案,团队开发了新的抗体设计方法 AB-Gen。AB-Gen 的主要目标是设计抗体的 CDRH3 序列,而后者通常是抗体与抗原结合过程中最重要的区域。
他们用从 OAS 数据库获取的 CDRH3 序列,训练了一个 GPT 模型,并通过优化 GPT 模型生成的结果,生成符合多种属性约束的抗体 CDRH3 序列。
目前,以《AB-Gen:基于生成式预训练 Transformer 和深度强化学习的抗体库设计》()为题的论文,已经在Genomics, Proteomics and Bioinformatics期刊上线[2]。
图丨相关论文(来源:Genomics, Proteomics and Bioinformatics)
阿卜杜拉国王科技大学 Xiaopeng Xu 为该论文的第一作者,的两位研究人员为共同作者,担任通讯作者。
据了解,该论文的审稿人均为计算生物学领域的专家,对 GPT 和抗体相关的问题非常熟悉。其中一位审稿人表示:“GPT 主要用于分布学习,生成符合训练数据集分布的序列。而 的 GPT 方法和后来的 RLHF 方法,只能生成符合原有序列分布规律的序列,无法提升序列的属性。
AB-Gen 方法的最大特点是通过强化学习,让 GPT 能够不断优化所生成序列的属性,生成满足目标属性的序列。这种属性优化的方法在蛋白质设计相关任务中具有广阔的应用前景。”
另一方面,为了更好地探索小分子化学空间,寻找具有高结合性能的小分子药物,团队结合预训练大模型 GPT 和强化学习,提出了 SGPT-RL。他们将每个小分子表示为一个序列 SMILES,并通过优化 GPT 的输出结果,找到与目标有高结合性能的小分子。
在实验过程中,该团队发现 GPT 具有很好的记忆能力,能够学习到训练数据集中小分子的分布规律。
“通过强化学习,GPT 可以有效地找到与目标有高结合能力的小分子,并学习到一些小分子与目标结合的模式。我们认为这些模式特征对于设计特定目标的小分子药物可能会有一些启示。”说。
目前,以《利用生成式预训练 Transformer 和深度强化学习优化化学空间的结合亲和力》()为题的论文,已经在 F1000 Research期刊上线 [3]。
图丨相关论文(来源:F1000 Research)
阿卜杜拉国王科技大学 Xiaopeng Xu 为该论文的第一作者,的三位研究人员为共同作者,担任通讯作者。
可以看出,上述两项研究均是用 AI 在制药领域实现的创新性突破。对此,表示:“目前,基于生成模型进行药物的从头设计已经取得了重要进展,有一些药物已经进入临床实验阶段。我相信在未来几年内,将会有更多这类药物真正进入临床应用领域。这些药物的问世将会显著降低药物研发的成本,并为一些患者带来福音。”
同时,AI 在蛋白质和多肽设计领域也将会得到越来越广泛的应用。相信这一领域将为大分子药物、多肽药物、酶以及其他蛋白相关应用提供新的解决方案。他也非常期待基于生成式 AI 技术研发的生物药能够进入临床应用阶段。
表示,上述研究均包含以下步骤:问题定义、数据收集整理、方法设计、模型实现和调试、干实验测试、湿实验验证、实际管线赋能等。
在他看来,第一步和最后一步最为重要,也是其区别于其他大部分纯学术研究的关键点。
由于许多纯学术研究是好奇心驱动的,因此其解决的问题,可能并非产业界最急需解决的痛点。同时,大部分学术论文都会强调技术的先进性和新颖性,这会导致许多科研人员,甚至是领域专家,犯重技术、轻概念的错误。
“我会经常告诉团队,问题的定义才是重中之重,是根本。因为问题的定义一字之差,就会导致问题变成另一个完全不同的问题,而问题的最优解和解法都跟着发生彻底的变化。所以,一定要确保问题是定义准确正确的,而不能盲目地去跳进技术细节而去解决一个错误定义的问题。”说。
此外,绝大多数科研界实验室都不具备管线赋能的能力,但这对数据科学来说却是必不可少的一个环节。这是因为,实际问题的复杂程度是任何实验室的环境都不可能覆盖到的,如果无法走向应用,就可能存在纸上谈兵的嫌疑。
科研之外,还以联合创始人的身份于 2022 年 4 月创立了,这是一家基于下一代 AI 生物设计技术的合成肽创新疗法公司。
在阿卜杜拉国王科技大学校长(Tony Chan)和创新工场董事长兼 CEO 的共同推动下,实验室与开设了联合实验室。前者负责前沿算法设计与开发,后者负责算法的工业级改造及应用、自产数据的提供和湿实验验证,两者形成了严格迭代的干湿闭环。
图丨实验室合影(来源:)
认为:“任何 AI+Biology 这个交叉领域的突破性进展必须要有这样一个干湿闭环,干湿平等对话的生态,才有可能完成。如果是一方主导,而另一方只是其辅助和服务的角色,那么永远都无法在这个交叉领域产生根本性的突破。”
此外,谈及研究过程中遇到的难忘往事,认为令他印象最深刻的是,使用 GPT 进行药物设计时收到的反馈。
他说:“从 2020 年开始,我们就开始尝试使用基于 GPT 的生成式 AI 来进行小分子设计,当时 GPT 还没有变得非常流行。到了 2022 年,我们开始投稿时,ChatGPT 还没有引起广泛的关注,许多研究者对基于 GPT 的生成式 AI 方案持怀疑态度,这也导致我们的论文在最初投稿过程中遇到了困难,期刊编辑和同行专家们对此提出了质疑。”
但他们依然坚信这个方案在药物设计领域具有巨大的价值和潜力,并很欣喜地看到其项目启动并完成超过一年的时间之后,相同的想法在不同的应用领域取得了举世瞩目的关注和轰动,并成为改变世界科技走向的技术理念。
“这充分说明我们最初的判断和方向是完全正确的,这也是为什么我们的论文从预印本阶段就开始受到了广泛的关注和讨论,相应期刊也对我们进行了快速通道的审稿。”说。
聚焦计算机科学与生物学,具备较强的多肽药物设计能力
据介绍,于 2004 年在清华大学计算机系获得学士学位,2009 年在加拿大滑铁卢大学计算机学院获得博士学位。2009 年 10 月至 2010 年 9 月,在美国卡耐基梅隆大学计算机学院雷恩计算生物学中心担任雷恩学者。
在担任阿卜杜拉国王科技大学终身正教授的同时,他也是该校计算生物学中心主任、智慧医疗中心副主任,以及结构和功能生物信息学研究组负责人。此外,自 2021 年 9 月起,他还担任中国人民大学高瓴人工智能学院访问讲座教授。
如前所述,计算机科学与生物学的交叉领域是所聚焦的研究重点。
在计算机科学领域,他领导的研究团队主要致力于开发与深度学习、概率图形模型、内核方法和矩阵分解相关的机器学习理论和方法。在生物信息学领域,他带领团队主要致力于构建计算模型、研发机器学习技术、设计高效的算法,以解决从生物序列分析到三维结构确定、到功能注释、再到了解和控制复杂生物网络中的分子行为,以及最近的生物医疗和健康领域中的关键开放问题。目前,其已经在生物信息及机器学习的顶级期刊和会议上发表论文 340 多篇,引用 8000 余次,H-index 为 48。
目前,联合创立的已经针对天然氨基酸序列、非天然氨基酸序列和复杂构象的多肽,构建了世界上首个跨模态预训练大模型,其在各种下游任务上,比如亲和力预测、穿膜肽预测、稳定性预测等,都表现出了显著的准确度提升。
表示,该公司的 AI 技术在单个性能指标(如亲和力、穿膜性、稳定性等)和多指标同时指导下的多肽药物设计上,发挥着重要作用。
他进一步解释道:“我们的 AI 算法绝不是拿来主义,而是通过分析具体需求以及数据的约束、假设、限制及属性,解决具体问题中的痛点和难点,打造量身定制的解决方案。因此我们的 AI 算法都有创新性和技术壁垒。”
具体来说,生物制药和合成生物学需要从不同的角度出发,对蛋白进行优化与设计,例如亲和力、稳定性、免疫原性等。传统方法采用层级过滤法,通过前一轮的过滤的候选物,才可以进入下一轮过滤。如果输入的蛋白空间是所有可能的蛋白,如对 12 个残基的多肽,搜索空间为2012,这种层级过滤法可以保证最优性。
不过,由于搜索空间过于庞大,不可能进行遍历搜索,因此层级过滤法只会对搜索空间的冰山一角进行过滤,最终或者找不到同时满足所有指标的候选物,或者找到的是次优的候选物。
而该公司的 AI 设计平台在设计多肽药物时,会对多肽药物进行全方位的优化,这包括亲和力、穿膜效率、稳定性等多个因素同时优化。
同时,他们也提出了基于多指标同时优化强化学习的蛋白质 in silico 定向进化算法。这款算法可以对多个指标同时进行多维度优化,并将多指标作为强化学习的反馈信息指导下一步的搜索。其具体通过模型序列到功能的预测,指导序列的设计生成,生成序列的质量则主要取决于预测模型的性能,因此在单目标预测算法提升后,能够很轻易地融入原有算法框架,并且会使得序列生成的质量得到提升;更进一步地,多个指标中的任何指标都可以被湿实验数据所替代,即从而形成各种尺度的干湿闭环。
如今,该公司新的多肽药物设计平台和范式已经在多个若干管线中取得良好结果,模型的设计和预测也已得到湿实验验证。“预计在公司成立两年之内,我们会将若干个 First in class(全球新)创新药管线推进到临床试验申报研究(IND Enabling Study)阶段。”最后表示。
标签:
您可能也感兴趣:
为您推荐
私募深夜道歉:做空美股 亏到崩溃!没想到还能走出大牛市 两个多月的梦魇!
5天5板大牛股 紧急澄清!资产重组尚存在不确定性
600亿AI巨头爆雷!浪潮信息预计第二季度可能出现扣非亏损
排行
精彩推送
- 新方法缩短蛋白质设计研发周期
- 三安光电上半年净利润同比预减75%到85%
- 6月新增信贷、社融超预期 下半年仍有降准降息可能?
- 私募深夜道歉:做空美股 亏到崩溃!没想到还能走出大牛市 ...
- 5天5板大牛股 紧急澄清!资产重组尚存在不确定性
- 600亿AI巨头爆雷!浪潮信息预计第二季度可能出现扣非亏损
- 无网无电可支付!三大电信运营商“SIM卡硬钱包”上线 数字人...
- 美格智能(002881):7月11日北向资金减持3.79万股
- 三年亏超百亿,“网红”山航股票退市
- 【闲着干嘛呢】刘在石女儿娜恩出演?PD表示:“正在考虑中!”
- 2023年上半年新增社融累计21.55万亿 M2同比增11.3%
- 传闻蚂蚁金服要成立金融IT软件板块?恒生电子回应
- 小米13怎么把北斗改成gps
- 恒生电子要被蚂蚁金服瓜分蛋糕了?公司澄清:不符合事实情况
- 网传“摩托车超速后发生严重事故”,北京市交管局回应
- 社区牵头各单位群策群力,解决居民生活用水
- 7月11日晚间沪深上市公司重大事项公告最新快递
- 超预期!6月金融数据全面发力 社会融资大增 降准预期升温?...
- 浪潮信息:预计上半年净利同比下降60%-70%
- 恒生电子跌7.89% 机构净卖出65633万元
- 2023年芜湖教育局一中附中联合招生录取查询入口
- 新主线爆发 龙头连续4涨停!汽车板块利好频出 比亚迪获资金...
- “碰一碰”即付款!数字硬钱包来了 三大巨头官宣上线!超级S...
- 7月11日龙虎榜:9300万抢筹移远通信 机构净买入5只股
- 英特尔第二代Gaudi深度学习加速器在中国市场上市
- 意媒:19岁意大利国脚尼翁托接近加盟埃弗顿,转会费2200万欧
- 欧莱新材7月18日上交所首发上会 拟募资5.77亿元
- 中国6月社会融资规模增量4.22万亿元
- 央行:6月新增信贷3.05万亿元 M2增长11.3% 社融增量为4.22万亿元
- 25岁男子在幼儿园行凶致6死1伤 廉江市教育局:现在是多个部...
- 国家发改委:进一步规范承接产业转移示范区建设发展
- 2人受伤!国航回应“飞机颠簸惊魂”
- 欧圣电气跌2.11% 去年上市超募6.3亿中泰证券保荐
- 西部(重庆)科学城推动团干部和少先队辅导员能力提升
- 豪恩汽电跌1.45% 机构净卖出1.05亿元
- 姚记科技跌6.7%机构净卖1亿元 兴业证券今刚维持增持
- 争光股份跌3.76% IPO超募7.2亿国信证券保荐
- 恒生电子跌7.89% 安信证券国元证券在其高点唱多
- 上周成有记录以来最热一周 南极海冰范围创历史新低
- 美国在叙利亚进行无人机袭击,宣布击毙“伊斯兰国”叙东部头目
- 武警部队将组织“锋刃-2023”国际狙击手射击竞赛
- 6月份,北京居民消费价格环比下降0.2%
- 外交部:如果有人认为福岛核污染水可饮用 建议日方供这些人饮用
- 俄媒:普京6月29日在克里姆林宫会见了普里戈任
- 映宇宙港股涨19.4%
- 三伏天适合减肥?注意5大误区
- 小鹏汽车港股涨8.9%
- 破发股盟科药业拟定增募不超2亿 去年IPO募10.6亿连亏
- 白鹭资产旗下白鹭商品价值投资1号年内跌15.24%
- 京能热力3涨停
- 湖南一养猪场发生烟花爆竹爆炸致5死2人失联
- 国家能源集团:7月10日完成发电量40.9亿千瓦时 创历史最高纪录
- 特斯拉盯上了孩子!这款玩具车即将在中国上市 能跑24公里!...
- 我国首台核心部件100%国产高端晶圆激光切割设备问世!这家A股...
- 多头出手!人民币迎关键转折 三大重磅支撑集中释放!股市大...
- 数字化钻井技术加速页岩油勘探开发
- 庆祝2023年世界人口日中国研讨会在京举行
- 7月11日涨停复盘:*ST中期7连板 浙江世宝8天6板
- 研报掘金|中金:下调颐海国际目标价至22港元 料上半年净利润增20%
- 中原银行3730万股内资股二拍遭流拍
- 朗新科技涨1.16% 拟买邦道科技10%股权实现全资控股
- 【何以中国】盛世中华有多美?AI给中国做了一组名片
- 安徽省发展改革委召开企意民声座谈会
- 【风口研报】芯片格局或重塑!无人驾驶要来了?关注汽车智能...
- A股三大指数收涨 汽车产业链与半导体板块领涨
- 前6月北京居民消费价格总水平比上年同期上涨0.7%
- 武警部队将组织“锋刃-2023”国际狙击手射击竞赛
- 科大讯飞发布Q2财报:扭转业绩下滑局面 布局大模型与人工智能领域
- 开封清明上河园内的酒店宾馆
- 下月初施行 事关新能源汽车!这一政策有重大变化 专家这样预判
- 航班剧烈颠簸 乘客:大家都在尖叫 落地后足足找到了一摞手...
- 厦门国际银行北京分行荣获“户外劳动者暖心驿站”优秀奖和建设奖
- 突发!3万亿赛道涨停潮 众泰汽车7天4板
- 1澳币等于多少人民币(2023年7月11日)
- 一日元等于多少人民币(2023年7月11日)
- 1台币等于多少人民币(2023年7月11日)
- 中铁十一局投资公司与科大讯飞签署战略合作协议
- 650泰铢是多少人民币(2023年7月11日)
- 芯片股集体反弹!10分钟20cm涨停 “U形”周期复苏底部?
- 充电性能最高提升3.8倍 固态电池有新突破!低市盈率+高增长...
- 银河证券:游戏、营销、影视行业将率先验证AI降本增效
- 晶硅光伏组件回收利用技术研究项目通过验收
- 发改委连续召开两次座谈会释放出支持民营企业发展积极信号
- 基于通用量子计算机的通信网络优化算法验证成功
- 人形AI登上舞台中央
- 国航回应CA1524航班颠簸:一名旅客和一名乘务员受伤
- 午评:大盘早间震荡反弹 汽车板块强势
- 将危险清除,李浩,给你点赞!
- 天赐材料回应高盛“唱空”:目前订单正常 Q2比Q1订单环比上升
- 华池南梁通用机场取得机场使用许可证
- 天津河西区:民心工程交出半年答卷
- 优化营商环境“半年考”,天津静海交出满意答卷!
- 天津大学为重庆市万州受灾学生设立临时补助
- 财通证券H1归母净利9.8亿至10.8亿 预增55%至70%
- 今年强基计划遇冷,分数线令人出乎意料,网友:真是低估了张雪峰
- 吴开庭:高温下的“铁汉子”
- 变废为宝?晶硅光伏组件回收利用技术研究项目通过验收
- 全球共享发展行动论坛首届高级别会议开幕 与会嘉宾:中国为...
- 中国化学:7月10日融资净买入246.64万元,连续3日累计净买入3...
- 美国经济数据更强劲 美元面临走弱的压力