浙江日报 数字报纸


00006版:前沿周刊·科技

阿里达摩院研究团队发布细胞世界模型“灵枢细胞”

硅基细胞 “数”造生命

  ■ 本报记者 杨千莹

  “AI虚拟细胞”,一个在计算机中生长与消亡的硅基生命单元。

  想象一下这样一幅画面:轻点几下鼠标,几秒钟内,计算机上便出现一个跳动的细胞,演示其在给定条件下如何变化。与传统实验室内耗费数月甚至数年培养细胞、观察药物反应相比,这一幕颇为科幻的图景已经出现在真实世界。

  过去两年,“AI虚拟细胞”概念在生物医学界迅速升温,美国扎克伯格基金会、深度思维、中国科学院、西湖大学等科研机构纷纷入场。

  不久前,阿里达摩院研究团队发布了全球首个全转录组尺度的细胞世界模型——“灵枢细胞”(Lingshu-Cell)。这个在业界竞赛中性能领先的生成式模型,能够精准预测细胞对基因扰动和药物的反应,为我们勾勒出从细胞层面构建“数字分身”的可能性。

  AI,如何理解并参与设计一个像细胞一样时刻变化的复杂系统?它又将给生物医学带来哪些改变?

  让细胞“动起来”

  要理解“灵枢细胞”能做什么,首先要了解“AI虚拟细胞”。简单来说,它的目标是在计算机中建立一个细胞的“数字分身”,并由AI模型驱动,预测当细胞遭遇“扰动”时会发生什么。

  这个“扰动”,可以是某个基因的敲除、药物分子的刺激,或是细胞因子的作用。通过单细胞测序技术,研究人员能获取细胞遭遇“扰动”前后数以百万计的基因表达数据,并基于此寻找治愈疾病或开发新药的方法。

  从前的细胞模型大多只能模拟细胞在某一时刻的“定格”样态。然而对于复杂的生命系统而言,这远不足以囊括其变化规律。

  “灵枢细胞”的研究动机主要是围绕“把握细胞的动态规律”这一核心目标展开。

  阿里达摩院的屏幕上,三块分区清晰可见:扰动前细胞、选定的扰动、扰动后细胞。

  “灵枢细胞”研究团队成员张晗现场为记者演示了模型的预测过程:选定扰动的基因或细胞因子,点击“开始模拟”,几秒钟后,屏幕右侧便生成了一个动态的细胞,展示AI模型预测结果。

  这短短的几秒,发生了什么?

  “这个过程,有点像教AI用基因玩一个填空游戏。”张晗介绍,首先,团队将单个细胞中约1.8万个基因及其表达转换成词元(token)。接着,随机遮盖其中一部分基因,让模型根据学习到的规律,预测基因的表达结果,亦即细胞的状态分布。

  在模型充分学习上述静态规律之后,团队叠加上另一个模型,建立起一个更大的词表,从而使得“灵枢细胞”具备动态模拟预测能力。

  “这个叠加的模型,就是掩码离散扩散模型。”“灵枢细胞”研究团队负责人、阿里达摩院科学智能负责人荣钰介绍,这也是该模型首次被应用于AI虚拟细胞的研究。

  这一叠加并非简单的拼接,而是系统化的改造。“如ChatGPT这样的语言大模型,是基于上下文语境展开预测,而单细胞基因数据的特殊之处,在于它的位置任意性。”荣钰解释,单细胞中的基因表达可能以任意顺序出现,具有高度离散的特征,不符合语言大模型“高频词”和“从左到右”的预测逻辑。因此,该模型采用的离散扩散生成方式,更贴合基因表达“天然无序”的内在结构。

  验证人类大脑皮层、心脏等9种组织,以及小鼠、猕猴等4个非人类物种数据后的结果表明,“灵枢细胞”的生成结果已经与真实细胞高度一致。

  预演“多元宇宙”

  “AI虚拟细胞”看似新颖,实际上完成的是一个未竟的任务。

  在AI出现以前,用计算机模拟细胞并非新鲜事。早期的虚拟细胞建模实践,可以追溯至20世纪90年代,美国康涅狄格大学教授莱斯利·洛(Leslie M. Loew)团队开发的“虚拟细胞”(Virtual Cell)计算平台。

  当时,研究者们尝试用数学公式描述细胞内部的信号通路——某个蛋白质激活了哪条通道,另一个分子又如何反馈抑制。这种思路在逻辑上是清晰的:如果能把细胞里所有的分子关系都写成方程,就能推算细胞的行为。

  问题在于,这个“如果”的条件太过苛刻。

  “一个哺乳动物细胞中蛋白质分子的平均数量多达数十亿,与现有地球人口规模处于同一量级。”西湖大学医学院及生命科学学院长聘副教授郭天南说,这样庞大的体系,意味着用数学公式“完整描述”细胞的努力往往会走向还原论,即把复杂系统拆解成少数关键组成部分来理解。也就是说,研究者只挑选最重要、最关键的几个分子来研究,而将大量其他因素暂时忽略。

  “这样的局部可以做得非常精细。”郭天南给出了一个形象的比喻,“就像你绘制了一张北京或者波士顿的超高精度地图,这在特定场景下很有价值。但真实细胞里有数十亿个蛋白质分子,模型却往往只保留三四个关键分子。这样一来,就好比我们拿着这张地图去环球旅行一样,不具备泛化性,离实际的药物治疗与疾病研究非常遥远。”

  AI的介入,改变了这个逻辑的起点。作为首个全转录组尺度的细胞世界模型,“灵枢细胞”把研究范围从少数几个基因扩大到细胞中所有RNA,用全景的视野生成预测。

  传统方法依赖“人先理解规律,再写出公式”。AI的介入,更像是在海量数据中先观察生命,再从中学习规律。最直观的变化,就是成本降低、效率提升。

  “这一能力最直接的应用之一,就是在制药领域。”荣钰说。在传统新药研发中,一个候选药物从实验室走向临床,往往需要经历细胞实验、动物实验、人体临床等多个阶段,仅前期筛选就需要耗费大量时间与成本。“不断调整药物浓度、组合不同分子,再观察细胞是否死亡、有没有毒性、是否出现耐药反应等,每一步都非常耗时。”

  而在计算机里完成的虚拟实验,大幅节省了初步筛选的时间。在荣钰看来,这有点像电影《奇异博士》中预演“多元宇宙”的过程:“先在虚拟细胞中快速模拟一种药物可能带来的影响,提前筛掉大量无效方案,再把最有潜力的结果拿去做真实实验。”

  须臾之间,曾经耗费几个月才显现的无数种可能的“未来”便能展现眼前。

  与此同时,真实世界中的生物实验,本身存在难以复现的问题。采访中,荣钰分享了一个学界流传的段子:“今天我左脚先进门,培养细胞不开心了,一天的实验都没成功。”玩笑中,藏着生物实验苛刻的培养条件。

  荣钰说,即便是同一种细胞、同一种培养条件,不同实验室、不同时间做出来的结果都可能不一样。细胞的衰老、变异以及实验环境都会带来影响。

  AI介入的意义,正在于从这些庞杂、充满噪声的数据中,寻找更稳定的规律。

  走向真实的生命

  多位研究者表示,“AI虚拟细胞”仍处于发展的早期阶段。

  “‘灵枢细胞’初代模型的泛化能力,目前仅存在于现存的细胞类型范围内。”荣钰说,这意味着,如果出现从未遇见过的细胞类型,模型就难以精准地做出预测。

  换言之,现阶段,AI的能力局限于在已知范围内进行精确推演。荣钰透露,“灵枢细胞”的下一步,将加入更多基因组学信息、更复杂的扰动条件,并依据真实场景中的困难情况不断提升泛化能力,朝着更加接近真实生命的方向迭代。同时,类器官水平的研究也正在进行中,预计在今年发布成果。

  在郭天南看来,“AI虚拟细胞”最终的发展方向,是逐步从细胞扩展到组织、器官,最终走到人体。但实现这一目标,前提仍是先真正理解细胞。“虚拟细胞是承上启下的一环,只有模拟好细胞,才有可能往上构建组织器官,最终构建人体的数字孪生。”

  那么,“AI虚拟细胞”是否仍处于实验室的起步阶段?专家们纷纷否定了这个说法。

  “‘AI虚拟细胞’天然地带有应用属性。”郭天南说,与很多基础科研不同,“AI虚拟细胞”从诞生开始,就几乎直接面向制药、医疗与生物工业,因此,模型的发展,不仅在高校与研究所里发生,也在产业界出现。

  不久前,由诺奖得主联合创立的赛拉治疗公司推出虚拟细胞模型X-Cell,参数规模高达49亿个。此外,全球科技公司也在相继布局相关研究。

  去年4月,美国食品药品监督管理局宣布,将使用“新方法论”(包括AI计算模型、人类细胞系、类器官等)逐步减少并替代部分传统动物实验。这对整个医药行业都是历史性的时刻。

  “在动物模型中有效的药物,在人体中不一定表现出相同的疗效或安全性。”郭天南说,这一在药物研发中沿用了100多年的动物实验传统正因为“AI虚拟细胞”等新技术的崛起而开始松动。

  “我们关于细胞如何运作的所有知识,最终或许都将被整合进这些模型中,以实现更全面的预测。”采访中,郭天南描述了一个愿景。这既是生物医学领域的目标,也是它还需翻越的一座座山头。

  我们期待着,这个在硅基世界里生存的小小“生命”,变得越来越真实。


浙江日报 前沿周刊·科技 00006 硅基细胞 “数”造生命 2026-06-10 28095296 2 2026年06月10日 星期三