浙江日报 数字报纸


00008版:前沿

探秘之江实验室牵头建设的智能计算数字反应堆,它能做什么——

从群星到基因,数字“燃料”创造新知

  材料、育种、天文、制药、基因……这些科学领域有着大量前沿空白等待填补,又与我们生活息息相关。当它们与智能计算强强联合,是怎样一个场景?

  近日,之江实验室启动建设智能计算数字反应堆科学装置,并在上述领域启动首批重大应用项目,发布智能计算数字反应堆计算育种、计算天文、计算制药、计算材料等系列白皮书,加速促进智能计算与材料、制药、基因、育种、天文等领域的深度耦合,支撑我国重大战略领域的科学研究,助力我省三大科创高地建设。

  中国科学院院士、上海大学材料基因组工程研究院院长张统一,中国工程院院士、中国水稻研究所所长胡培松,中国科学院国家天文台研究员、FAST首席科学家李菂,长三角绿色制药协同创新中心执行主任苏为科,之江实验室特聘专家黄行许教授分别受聘智能计算数字反应堆计算材料、育种、天文、制药和基因领域首席科学家。

  记者走进之江实验室,探访智能计算数字反应堆的前世今生,与科学家们共同畅想智能计算的未来。

智能计算  构建数字反应堆基底

  智能计算应用于科学研究的威力有多强?

  今年7月,谷歌AI模型AlphaFold2在生命科学界引起震动——它精准预测了人类98.5%的蛋白质结构。而在此之前科学家们数十年的努力,只覆盖了人类蛋白质序列的17%。

  传统上,蛋白质结构预测可以分成基于模板和从头预测,但是AlphaFold2只用机器学习一种方法,对几乎所有的蛋白质都预测出了正确的拓扑学的结构,其中有大约2/3的蛋白质预测精度达到了结构生物学实验的测量精度。作为智能计算案例之一的AlphaFold2,即便只暂露了能量与潜力的“冰山一角”,仍让科学家对它的未来心驰神往。

  由此看来,智能计算是根据任务所需,以最佳方式利用既有计算资源和最恰当的计算方法,解决实际问题的一种计算形态。既不是超级计算、云计算的替代品,也不是现有计算的简单集成品。

  以智能计算为基底,之江实验室精心谋划,一款全新科学装置呱呱落地。在智能化数字反应堆引擎推动下,为不同计算任务调度最优计算资源,适配最佳计算方法和模型,形成最优结果。

  “数字反应堆最重要的‘燃料’是数字,最重要的‘引擎’是人工智能,人工智能很重要的基础是知识。之江实验室智能计算数字反应堆,把数字和知识以最快的速度聚集起来,促进跨学科多行业多模态数据产生聚变式与裂变式应用,将成为新一代人工智能的重要基础设施。”中国工程院院士、之江实验室人工智能领域首席科学家潘云鹤指出了数字反应堆的本质。

  为支撑智能计算数字反应堆,之江实验室规划了充足的算力设施。位于之江实验室南湖总部的计算数据中心是目前国内科研机构中规模最大、等级最高的算力中心之一。数字反应堆还将聚合智能超算、智算集群,类脑计算、图计算等算力资源,协同广域协同算力平台和超算互联网算力平台。

  数字反应堆首席架构师潘爱民研究员介绍,数字反应堆本身是个极其复杂的系统,必须用系统思维的方法论进行建设。“算力资源是强异构的,我们通过一个智能软件操作系统来有效调度和管理这些资源,并且抽象出多个引擎为领域应用,特别是人工智能应用,提供计算赋能。我们可以把所有这些算力看成一台计算机,反应堆操作系统就是这台计算机的系统软件,通过构建计算引擎,形成泛在可取的计算服务,为各领域开发应用提供计算赋能。”

能量裂变  多领域创新发展

  如同核反应堆能够以聚、裂变等形式,并通过一系列转换产生可利用能量,数字反应堆也能够通过数字“聚、裂变”,实现智能计算在交叉领域的创新发展。

  自从2011年美国启动“材料基因组计划”以来,材料学与计算机学的交叉研究逐步成为一片热土。2016年我国将材料基因组工程与技术列入国家重点研发计划,将传统计算材料学方法与数据驱动的人工智能方法深度结合,正衍生为新兴的“智能计算材料”研究方向。

  既然被称之为“材料基因组”,难道材料内部也有类似于人类基因的东西?

  材料与人类基因还是有相似之处的。人类基因中的DNA和RNA的排列决定人体的主要性能,而材料中原子的性质和排列(包括晶体结构和缺陷)决定了材料的内在性能。

  在传统的材料设计方法中,需要材料设计者通过不断调整设计参数,在不同条件设置下分别进行实验,来寻找满足需求的材料设计参数。利用以深度学习为代表的人工智能技术,它能够将材料制备工艺、组分、结构和性能等大量数据汇成一块,细嚼慢咽,并高效准确地从中品出规律、价值。

  “打个比方,制作一份可口的食物,调料和手法需要不断调整。数字反应堆的加入,能够根据已有菜谱,计算出我们想要的菜谱。”之江实验室科研发展部部长赵志峰说。

  赵志峰告诉记者,在计算材料数字反应堆中,科学家可以根据已知实验数据,构建机器学习模型,预测某个特定设计参数下的目标“回答”。这样在面对新的材料设计需求时,便可以借助模型预测值来搜索最优的材料设计参数,从而大大减少实际实验次数,加快材料研发速度、降低材料研发成本、提高材料设计的成功率和效率。

  数字反应堆不仅是计算材料的“菜谱”,在迈入计算育种方向后,它将成为粮食种子的来源之一。

  以水稻为例,水稻有4万多个基因,几乎是人类基因总数的2倍,面对海量的基因数据,如何破解水稻的“基因”密码?生物技术、大数据与人工智能缺一不可。“育种工作就像跳高,到达一定的高度后,需要颠覆性的技术推动领域发展。”中国水稻研究所所长、中国工程院院士胡培松说。

  数字反应堆将以育种大数据为“燃料”,将大数据挖掘与分析、人工智能、高性能计算等先进技术方法高效融合,通过现有的基因、分子、环境和表型等多模态多尺度海量数据集,建立高精度分子育种模型,以期加速育种的全流程智能化研发。

  “数字反应堆的研发,将推动作物育种从‘试验选优’向‘计算选优’的根本转变,促进育种科学范式变革,全面提高育种数量、速度、质量和产量,推进分子精准育种技术在我国农作物育种领域的规模化应用。”胡培松说。

观天制药  走出交叉新路

  “宇宙从来不是寂静无声的,随着现代天文学,特别是射电天文的发展,我们通过射电望远镜捕捉到了巨量且丰富的宇宙信号。” 中国科学院国家天文台研究员、FAST(500米口径球面射电望远镜)首席科学家李菂说。

  射电天文数据量大、复杂度高,并且在观测过程中随时伴有人类活动对信号捕捉的影响,如何从获取的海量数据中筛选提取有效信息,已逐渐成为制约天文学发展、探索宇宙奥秘的难题。

  将人工智能技术引入天文领域,让天文学者看到了解决天文数据处理难题的曙光。据了解,中国科学院国家天文台的青年科学家,在全球率先利用深度学习神经网络算法,在海量宇宙信号数据中,筛选出想要的内容,并找到新脉冲星。FAST建成后,我国自研的多科学目标同时扫描巡天技术,结合深度学习方法,成功捕获并研究了快速射电暴等重要现象。

  一个基于FAST的计算天文智能计算平台已在规划之中。在李菂的畅想中,数字反应堆将在快速射电暴、脉冲星单脉冲、密近双星系统脉冲星信号筛选等研究方向中承担重要角色。它将以“管家”的身份,实时处理100TB每天的脉冲星巡天数据,建立国际领先脉冲星搜寻数据流程,并深入探索宇宙“时间”前沿、恒星演化机制等科学问题,同时建立协同开放的天文大数据服务平台。

  “研发成本高、周期长、自然流失率高”是掣肘药物研发的三座大山,从药物发现到临床试验的成本高昂且失败率高。如同神农尝百草,传统制药总是以年为单位计数,在不断的试错中发展。

  “寻找有效、合适的药物靶点是新药研发的首要任务。”长三角绿色制药协同创新中心执行主任苏为科说,没有好的靶点,就好比找不到敌人的位置,有再先进的武器都难以击中目标。

  数字反应堆介入后,借助挖掘药物数据资源,科学家可以先在计算机上缩小靶点范围,简化繁琐的实验流程。此外,药厂可以将经过实践验证的数据模型应用于制药流程中,实现药物全自动智能化生产,药物更快、更安全地走进市场。

  未来,之江实验室将搭建智能计算数字反应堆药物大数据智能计算平台,并在此基础上集成机器学习算法、PB级药物大数据的挖掘分析处理、以知识为基础的智能计算等技术,以海量数据集建立精准模型,为制药行业的创新发展做出浙江贡献。


浙江日报 前沿 00008 从群星到基因,数字“燃料”创造新知 2021-11-12 浙江日报2021-11-1200005;浙江日报2021-11-1200008;浙江日报2021-11-1200013;23343018 2 2021年11月12日 星期五