浙江日报数字报纸

00006版：前沿周刊·科技

文章导航

阿里达摩院研究团队发布细胞世界模型“灵枢细胞”

硅基细胞 “数”造生命

本报记者杨千莹

　　■ 本报记者杨千莹

　　“AI虚拟细胞”，一个在计算机中生长与消亡的硅基生命单元。

　　想象一下这样一幅画面：轻点几下鼠标，几秒钟内，计算机上便出现一个跳动的细胞，演示其在给定条件下如何变化。与传统实验室内耗费数月甚至数年培养细胞、观察药物反应相比，这一幕颇为科幻的图景已经出现在真实世界。

　　过去两年，“AI虚拟细胞”概念在生物医学界迅速升温，美国扎克伯格基金会、深度思维、中国科学院、西湖大学等科研机构纷纷入场。

　　不久前，阿里达摩院研究团队发布了全球首个全转录组尺度的细胞世界模型——“灵枢细胞”（Lingshu-Cell）。这个在业界竞赛中性能领先的生成式模型，能够精准预测细胞对基因扰动和药物的反应，为我们勾勒出从细胞层面构建“数字分身”的可能性。

　　AI，如何理解并参与设计一个像细胞一样时刻变化的复杂系统？它又将给生物医学带来哪些改变？

　　让细胞“动起来”

　　要理解“灵枢细胞”能做什么，首先要了解“AI虚拟细胞”。简单来说，它的目标是在计算机中建立一个细胞的“数字分身”，并由AI模型驱动，预测当细胞遭遇“扰动”时会发生什么。

　　这个“扰动”，可以是某个基因的敲除、药物分子的刺激，或是细胞因子的作用。通过单细胞测序技术，研究人员能获取细胞遭遇“扰动”前后数以百万计的基因表达数据，并基于此寻找治愈疾病或开发新药的方法。

　　从前的细胞模型大多只能模拟细胞在某一时刻的“定格”样态。然而对于复杂的生命系统而言，这远不足以囊括其变化规律。

　　“灵枢细胞”的研究动机主要是围绕“把握细胞的动态规律”这一核心目标展开。

　　阿里达摩院的屏幕上，三块分区清晰可见：扰动前细胞、选定的扰动、扰动后细胞。

　　“灵枢细胞”研究团队成员张晗现场为记者演示了模型的预测过程：选定扰动的基因或细胞因子，点击“开始模拟”，几秒钟后，屏幕右侧便生成了一个动态的细胞，展示AI模型预测结果。

　　这短短的几秒，发生了什么？

　　“这个过程，有点像教AI用基因玩一个填空游戏。”张晗介绍，首先，团队将单个细胞中约1.8万个基因及其表达转换成词元（token）。接着，随机遮盖其中一部分基因，让模型根据学习到的规律，预测基因的表达结果，亦即细胞的状态分布。

　　在模型充分学习上述静态规律之后，团队叠加上另一个模型，建立起一个更大的词表，从而使得“灵枢细胞”具备动态模拟预测能力。

　　“这个叠加的模型，就是掩码离散扩散模型。”“灵枢细胞”研究团队负责人、阿里达摩院科学智能负责人荣钰介绍，这也是该模型首次被应用于AI虚拟细胞的研究。

　　这一叠加并非简单的拼接，而是系统化的改造。“如ChatGPT这样的语言大模型，是基于上下文语境展开预测，而单细胞基因数据的特殊之处，在于它的位置任意性。”荣钰解释，单细胞中的基因表达可能以任意顺序出现，具有高度离散的特征，不符合语言大模型“高频词”和“从左到右”的预测逻辑。因此，该模型采用的离散扩散生成方式，更贴合基因表达“天然无序”的内在结构。

　　验证人类大脑皮层、心脏等9种组织，以及小鼠、猕猴等4个非人类物种数据后的结果表明，“灵枢细胞”的生成结果已经与真实细胞高度一致。

　　预演“多元宇宙”

　　“AI虚拟细胞”看似新颖，实际上完成的是一个未竟的任务。

　　在AI出现以前，用计算机模拟细胞并非新鲜事。早期的虚拟细胞建模实践，可以追溯至20世纪90年代，美国康涅狄格大学教授莱斯利·洛（Leslie M. Loew）团队开发的“虚拟细胞”（Virtual Cell）计算平台。

　　当时，研究者们尝试用数学公式描述细胞内部的信号通路——某个蛋白质激活了哪条通道，另一个分子又如何反馈抑制。这种思路在逻辑上是清晰的：如果能把细胞里所有的分子关系都写成方程，就能推算细胞的行为。

　　问题在于，这个“如果”的条件太过苛刻。

　　“一个哺乳动物细胞中蛋白质分子的平均数量多达数十亿，与现有地球人口规模处于同一量级。”西湖大学医学院及生命科学学院长聘副教授郭天南说，这样庞大的体系，意味着用数学公式“完整描述”细胞的努力往往会走向还原论，即把复杂系统拆解成少数关键组成部分来理解。也就是说，研究者只挑选最重要、最关键的几个分子来研究，而将大量其他因素暂时忽略。

　　“这样的局部可以做得非常精细。”郭天南给出了一个形象的比喻，“就像你绘制了一张北京或者波士顿的超高精度地图，这在特定场景下很有价值。但真实细胞里有数十亿个蛋白质分子，模型却往往只保留三四个关键分子。这样一来，就好比我们拿着这张地图去环球旅行一样，不具备泛化性，离实际的药物治疗与疾病研究非常遥远。”

　　AI的介入，改变了这个逻辑的起点。作为首个全转录组尺度的细胞世界模型，“灵枢细胞”把研究范围从少数几个基因扩大到细胞中所有RNA，用全景的视野生成预测。

　　传统方法依赖“人先理解规律，再写出公式”。AI的介入，更像是在海量数据中先观察生命，再从中学习规律。最直观的变化，就是成本降低、效率提升。

　　“这一能力最直接的应用之一，就是在制药领域。”荣钰说。在传统新药研发中，一个候选药物从实验室走向临床，往往需要经历细胞实验、动物实验、人体临床等多个阶段，仅前期筛选就需要耗费大量时间与成本。“不断调整药物浓度、组合不同分子，再观察细胞是否死亡、有没有毒性、是否出现耐药反应等，每一步都非常耗时。”

　　而在计算机里完成的虚拟实验，大幅节省了初步筛选的时间。在荣钰看来，这有点像电影《奇异博士》中预演“多元宇宙”的过程：“先在虚拟细胞中快速模拟一种药物可能带来的影响，提前筛掉大量无效方案，再把最有潜力的结果拿去做真实实验。”

　　须臾之间，曾经耗费几个月才显现的无数种可能的“未来”便能展现眼前。

　　与此同时，真实世界中的生物实验，本身存在难以复现的问题。采访中，荣钰分享了一个学界流传的段子：“今天我左脚先进门，培养细胞不开心了，一天的实验都没成功。”玩笑中，藏着生物实验苛刻的培养条件。

　　荣钰说，即便是同一种细胞、同一种培养条件，不同实验室、不同时间做出来的结果都可能不一样。细胞的衰老、变异以及实验环境都会带来影响。

　　AI介入的意义，正在于从这些庞杂、充满噪声的数据中，寻找更稳定的规律。

　　走向真实的生命

　　多位研究者表示，“AI虚拟细胞”仍处于发展的早期阶段。

　　“‘灵枢细胞’初代模型的泛化能力，目前仅存在于现存的细胞类型范围内。”荣钰说，这意味着，如果出现从未遇见过的细胞类型，模型就难以精准地做出预测。

　　换言之，现阶段，AI的能力局限于在已知范围内进行精确推演。荣钰透露，“灵枢细胞”的下一步，将加入更多基因组学信息、更复杂的扰动条件，并依据真实场景中的困难情况不断提升泛化能力，朝着更加接近真实生命的方向迭代。同时，类器官水平的研究也正在进行中，预计在今年发布成果。

　　在郭天南看来，“AI虚拟细胞”最终的发展方向，是逐步从细胞扩展到组织、器官，最终走到人体。但实现这一目标，前提仍是先真正理解细胞。“虚拟细胞是承上启下的一环，只有模拟好细胞，才有可能往上构建组织器官，最终构建人体的数字孪生。”

　　那么，“AI虚拟细胞”是否仍处于实验室的起步阶段？专家们纷纷否定了这个说法。

　　“‘AI虚拟细胞’天然地带有应用属性。”郭天南说，与很多基础科研不同，“AI虚拟细胞”从诞生开始，就几乎直接面向制药、医疗与生物工业，因此，模型的发展，不仅在高校与研究所里发生，也在产业界出现。

　　不久前，由诺奖得主联合创立的赛拉治疗公司推出虚拟细胞模型X-Cell，参数规模高达49亿个。此外，全球科技公司也在相继布局相关研究。

　　去年4月，美国食品药品监督管理局宣布，将使用“新方法论”（包括AI计算模型、人类细胞系、类器官等）逐步减少并替代部分传统动物实验。这对整个医药行业都是历史性的时刻。

　　“在动物模型中有效的药物，在人体中不一定表现出相同的疗效或安全性。”郭天南说，这一在药物研发中沿用了100多年的动物实验传统正因为“AI虚拟细胞”等新技术的崛起而开始松动。

　　“我们关于细胞如何运作的所有知识，最终或许都将被整合进这些模型中，以实现更全面的预测。”采访中，郭天南描述了一个愿景。这既是生物医学领域的目标，也是它还需翻越的一座座山头。

　　我们期待着，这个在硅基世界里生存的小小“生命”，变得越来越真实。

浙江日报 数字报纸

文章导航

阿里达摩院研究团队发布细胞世界模型“灵枢细胞”

硅基细胞 “数”造生命

本报记者 杨千莹

浙江日报数字报纸

本报记者杨千莹