2023 年 3 月,中国科学技术部启动“人工智能促进科学(AI for Science)”专项部署。该部署紧密结合了数学、物理、化学、天文学等基础学科的关键问题,聚焦药物研发、基因研究、生物育种、新材料研发等重点领域的科研需求。推进面向重大科学问题的人工智能模型和算法创新,发展一批针对典型科研领域的 AI for Science 专用平台,布局 AI for Science 前沿科技研发体系等。
国际层面,特斯拉首席执行官 Elon Musk 宣布成立人工智能公司 xAI,旨在建立理解自然规律的人工智能系统;谷歌前首席执行官 Eric Schmidt 宣布成立 AI for Science 博后奖学金,目前已布局 9 所高校;微软成立科学智能中心 AI4Science;NVIDIA 联合 IIT 发布 AI for Science 公开课程......从国内到全球,从学界到业界,AI for Science 俨然已成燎原之势。
于回国两年多的周耀旗而言,其围绕 AI4S 领域所开展的工作,现阶段主要在蛋白质和 RNA 结构的预测和功能蛋白质设计上,重点是开发和应用蛋白质和 RNA 新语言模型。
周耀旗现就职于深圳湾实验室,是系统与物理生物学研究所副所长、资深研究员。他曾领导多学科科研人员合作,在生物信息学及其在分子生物学的应用这个交叉领域多次作出独特、原创性贡献;曾经多次在国际蛋白质结构预测和功能预测比赛中名列前茅。
亲历计算生物领域三十年,周耀旗身上的标签无数:是不断破译蛋白质折叠密码的生物信息学专家、是从物理跨界到分子生物的科研“火炬手”、是在学科交叉的无人区享受创新乐趣的“老顽童”,是“AlphaFold”抱薪者……
▲图 | 周耀旗(来源:受访者提供)
01
“投笔从戎,做一些能落地的事情”
周耀旗的整个职业生涯与计算生物领域的发展相互交织。AlphaFold2 的出现,则是让其最为之激动的进展。
2020 年,在第十四届 CASP 比赛中,DeepMind 凭借 AlphaFold2 一举成名:能够基于氨基酸序列,预测蛋白质的 3D 结构,在蛋白质结构预测大赛里的中位得分超过了 92.4。而 AlphaFold2 中的深度学习方法,正是受到了之前借鉴周耀旗研究方法进行创新的研究人员开展端到端结构预测的启发。
“现在回过头来分析,其实在 AlphaFold2 出现之前,许多拼块都在了,AlphaFold2 的成功在于很好地把它们拼在了一起。”
周耀旗解释道,这些拼块包括:1)把三级结构分解成一维和二维的问题(一维的蛋白质的二级结构和二维的距离接触图预测);2)二级结构和距离接触图的预测精度,在 2016-2018 年间,由于深度学习能力的提升和提取进化信息精度的改进而大幅度提高;3)从离散的多态预测到连续的角度和距离的预测,在 2016 年可微分的损失函数方法出现后,使端到端的训练和预测成为可能,从而避开了不可靠的能量函数;4)超大数据、超大模型的训练和应用。
但他也坦言,AlphaFold2 没有真正解决单序列预测单个蛋白质结构的问题,只是解决了多个同源序列映射到单个结构的问题。“还有很多事可以做,包括复合物结构预测、蛋白质设计、RNA 结构预测等。”
值得一提的是,组内访问学者、智峪生科联合创始人熊鹏带队,在 CASP15 RNA 结构预测的比赛中获得了第一名,此次夺冠的 AIchemy_RNA2 方法的核心,正是基于熊鹏在周耀旗课题组工作时所主导开发的 RNA-BRiQ 统计能量函数。
2021 年 3 月,周耀旗结束了长达 36 年国外留学及教学经历,接受深圳湾实验室的橄榄枝,担任系统与物理生物学研究所副所长,并围绕蛋白质和 RNA 结构预测开展相关工作。
过去两年,在 RNA 结构预测上,周耀旗团队成功地开发了目前最大的核酸序列数据库 MARS,大大改进了通过 RNAcmap 进行的优质同源序列的搜索,并由此发展了 RNA 同源序列比对语言模型 RNA-MSM,可以更加准确地预测 RNA 的二级结构和三级结构稳定的碱基对;此外,团队也发展了一个基于接触图神经网络的蛋白质设计模型 SPIN-CGNN,比目前的方法在多个计算指标上有不少的进步。
除了基础研究之外,在国内提供更充足的科研经费之后,周耀旗开始尝试以前没有涉猎的方向,并开始做一些比较偏应用和转化方向的工作。周耀旗称,“这是投笔从戎,做一些能落地的事情。”
2022 年底,他联手詹剑、方超,利用三人分别在计算、生物和化学领域的专长,创立了砺博生物,从事靶向 RNA 的小分子药物的开发。创始人兼 CEO 詹剑在实验与计算结合对 RNA 结构和功能进行表征有着 10 多年的经验,曾获得国际遗传工程机器大赛(iGEM)金奖和最佳基础技术奖;联合创始人兼 CTO 方超在靶向 RNA 的小分子药物发现与开发方面有着丰富经验。
三人在 RNA 三级结构发现和预测上有多年的经验和心得,对用干湿结合的手段寻找合适的有稳定三级结构的 RNA 小分子药物靶点有独到的见解,同时有偏好与 RNA 稳定三级结构相互作用的小分子文库和多年开发靶向 RNA 的小分子药物的经验。
基于人工智能、干湿闭环的 RNA 靶标发现平台,砺博生物已发现多个选择性高、活性好,靶向 RNA 的小分子,在癌症、罕见病和病毒性感染等领域积极布局。
“未来 3-5 年,在蛋白质结构预测方面上,希望能够突破 AlphaFold2 对高质量天然蛋白同源序列的要求;在蛋白质设计方面,在进一步提高结构设计的成功率的基础上,能够实现功能设计的高成功率;在 RNA 结构预测上能够在 RNA 结构数量少的情况下,建立可以泛化的、有较高精度的预测模型,为产业界特别是我们砺博生物的靶向 RNA 的小分子药物研发引入 AI4S 的前沿进展,并提供一系列基于基础科学研究的源头创新。”
02
AI4S 潜力无限
作为一种将“AI”和“科研”深度融合的新兴科技形态,AI for Science 利用 AI 技术学习、模拟、预测和优化自然界和人类社会的各种现象和规律以解决各种科研问题,从而推动科学发现和创新,被称为“科学研究第五范式”。
周耀旗介绍称,AI4S 的热门应用方向将包括但不限于:药物研发、计算生物和化学、材料科学、天文学、气象学和气候科学、核物理和高能物理学、机器人和社会科学。其潜在的商业价值将体现在新材料、新药、新工农业产品的开发和服务、数据的分析和挖掘、教育和培训、科研的管理和咨询等方面。
“对科研来说,我觉得文献的搜索及综述文章的自动写作,对某个领域发现问题,并提出解决方案,对科研中出现的具体问题分析原因,甚至提出新设想、新概念也不是不可能。对于我们来讲,向 AI 提出什么问题?怎样提问题使其能够给出所需要的答案成为关键。”
围绕 AI4S 领域,周耀旗团队现阶段主要在蛋白质和 RNA 结构的预测和功能蛋白质设计上,重点是开发和应用蛋白质和 RNA 新语言模型。
据悉,团队下一个重要任务是怎么把序列、结构、功能与表型多个模态的关系勾画出来,同时怎么将 AI4S 领域的基础研究成果落地转化。包括如何进一步促进靶向 RNA 的小分子药物的开发,如何用功能蛋白设计加速靶向药物递送系统的开发等,而干湿结合的实验室将有效地加快计算预测(IT)与实验验证(BT)的内循环。
毫无疑问,我们正处于历史上 AI 在科学研究中的应用和发展的最大浪潮,甚至可以说是“繁荣”。以 ChatGPT 为代表的聊天机器人正在掀起无数浪潮。
在周耀旗看来,AI 类人机器将在可预见的未来,对教育、社会公平、资源管理、环境保护、医疗健康和娱乐等带来诸多积极的影响和帮助。但他也提醒,“当人工神经网络的体量和复杂度超过一定程度,意识一定会涌现。未来社会一定是人机共存的社会,类人机器作为一个新族种将衍生许多亟需考虑的社会伦理问题,值得深思。”
参考资料:
1.https://mp.weixin.qq.com/s/vZ_lD-E-hvyO-hj9UPeZTQ
2.https://www.szbl.ac.cn/scientificresearch/researchteam/934.html
3.https://mp.weixin.qq.com/s/-uX_7CswYqWHQo7O415bAA