孙凝晖:建立高水平自立自强的计算技术新体系
(孙凝晖 2022年2月25日)
习近平总书记提出:“加快建设科技强国,实现高水平科技自立自强”。计算所作为计算技术领域的国立研究所,新时期的目标就是要建立高水平自立自强的计算技术新体系,其中,针对处理器提出“C体系”、针对信息基础设施提出“信息高铁”体系。
一、处理器“C体系”
我们为了表述方便,把处理器新技术体系叫做“C体系”。
最近几年一直在思考,“C体系”内涵到底是什么,它对我们未来的科研工作有什么影响?计算所这几年一直在探索中,提出设想后,首先用它形成了处理器重大专项的主要思路,然后又用它形成了处理器芯片全国重点实验室重组的主要思路。2022年1月,李国杰院士牵头在《中国科学院院刊》组织了一期专题——探索我国信息技术体系的自立自强之路,包含了8篇从多个角度论述信息技术体系的文章,包括一篇《对信息技术新体系的思考》重点阐述了“C体系”的内涵。
“C体系”狭义上指我国构建处理器生态的第三条道路及其技术体系。计算所高举自主创新大旗发展国产处理器20年了,依然没有完成国家在处理器芯片上的战略目标。处理器难的不是做出一款芯片,或者实现一个技术指标,而是处理器生态怎么构建,技术体系怎么可控。
从构建处理器生态的道路及其技术体系这个角度,可以把我国技术体系归纳成A、B、C三个,这三个体系是并行的,不是谁取代谁的关系。第一个体系叫做“A体系”,我国信息化的主流平台被X86、ARM生态所占领,海光、海思等国产处理器的道路强调“全兼容”,可以看作是技术体系可控的“高铁模式”。第二个体系叫做“B体系”,可以看作是技术体系可控的“北斗模式”,这个体系强调“全自主”,以龙芯和申威为代表,因为不跟市场主流兼容,所以生态弱,中科院重大项目攻关的大量技术是兼容技术,从指令集、操作系统这一层去兼容,把国外控制生态上的大量应用迁移到“B体系”中来。第三个体系叫做“C体系”,走“全开放”的道路,全世界一起来建生态,谁也不控制谁,谁也不能卡谁,像香山RISC-V、寒武纪NPU就是走的这条道路,可以看作是技术体系可控的“5G模式”。
图1:C体系处理器技术路径
把C体系处理器技术路径分成7层结构,如图1所示,其中把处理器跟软件做个对照,右边是软件成功的设计方法,左边是处理器设计方法。从这个角度来看,如果能构造出来这样一套体系,那就形成了跟X86、ARM很不同的一套新技术体系。
二、全球算力网
我们为了表述方便,把信息基础设施新技术体系叫做“信息高铁”。
“信息高铁”(Info SuperBahn)的内涵是全球算力网(World Wide Computing, 简称WWC),是相对于全球万维网(World Wide Web)的新一代信息基础设施,它的核心技术特征是互联网模式并网、低熵高通量、与任务闭包抽象,跟交通系统中的高铁很类似。它不是WWW的下一代,是与WWW平行的构建在互联网之上的算力、算法、数据资产三者融合的信息智能加工底座,近期国家实施“东数西算”信息化建设重大工程,非常切合这个大思路。
1、基础设施的普及是时代的标志之一
图2:不同时代的标志性基础设施
普及性的基础设施是时代的标志之一,如图2所示。农业时代的标志之一是交通网基础设施的普及,中国为什么在农业时代走到世界的前列,是因为我国的道路、运河等农业生产的基础设施、农业物流的基础设施走在世界前列。工业时代的标志之一是能源网基础设施的普及,我国油气的网络、电力的网络,经过改革开放40年的基本建设,也是走在世界前列,特高压是中国在世界上最具代表性的基建成果之一。信息时代的标志之一是互联网基础设施的普及。那么智能时代的代表性基础设施是什么呢?我们认为算力网是其中之一。
运输、能源、信息、算力等供给的基础设施化就是对这些需求的普及化和服务化。一是要能普及,人人都能用;二是要变成服务,服务化是基础设施的一个标志。云计算还不能说是完善的基础设施,因为它不能实现所有场景的服务化。智能出行就做到了基础设施化,因为它做到了所有出行需求的服务化。
2、标准化与高级抽象是全球性基础设施的关键
在农业时代就有了道路、河流等运输基础设施,什么东西让它变成一个全球性的基础设施?起关键作用的是有了一个标准化容器——集装箱。集装箱就是货物运输的高级抽象。有了集装箱这个标准容器,无论是公路、铁路还是码头、海运,都是按照集装箱来构造的,货物的运输能力都是按多少标箱来计量,就实现了全球货物运输的基础设施化。所以标准化高级抽象非常重要。
在工业时代,电力就是能源的标准化高级抽象。有了电力以后,就有了一系列标准化的设备,比如逆变器是一个把直流变交流的标准化设备,特高压是一个远距离传输的标准化设备,锂电池是一个储能的标准化设备,还有变压器、插座、电表等,从发电、输电、储电、到用电、计量各个环节都被标准化了,全球能源互联网就是电力的跨洋输运。我们发展的新能源,不管是核能、光伏、风能、还是水能,都可以统一到电力抽象里边。未来的智能电动汽车将是交通、电力、信息、智能四个基础设施深度融合的产物,所以它必然发展迅速。
在信息时代,要解决信息的获取、传输、存储、处理、显示全环节的基础设施化。工业时代实现的电报电话、广播电视,是数据传输的基础设施,进入信息时代后,互联网成为数据传输的全球信息基础设施,它之所以做到全球化,因为它有了标准化的IP包和路由器,有了标准化的光纤,相当于有了软硬两方面的高级抽象。但是这是数据层面上的互联互通,不是信息层面的,信息是有语义的数据,WWW定义了一个信息的全球共享机制,关键的标准化信息容器就是网页,有了这个高级抽象,就是实现了全球范围内的信息组织、访问、查找与推送。移动通信从3G、4G、5G到星链,它和物联网试图去解决信息获取环节的全球基础设施化。固定终端PC、移动终端智能手机、物端机、VR头盔与元宇宙试图解决显示环节的基础设施化。目前还缺少存储与处理环节的彻底基础设施化。
图3:信息处理环节的基础设施化历程
进入到智能时代,需要实现算力网——也就是算力、算法与数据对象融合的基础设施化,其中数据对象借鉴了图灵奖获得者罗伯特-卡恩的digital object提法。图3展示了信息处理环节的基础设施化历程。农业时代和工业时代的信息处理都是无“网”。信息时代,实现了以计算为中心的超算中心与网格,以数据为中心的数据中心与云计算中心,有了docker容器这样的标准化高级抽象,形成了算力站和算力网的雏形。在智能时代,需要发展出全球算力基础设施(WWC),以算法为中心,用高效适配的多样性算力对数据资产进行深加工,产出模型。新型算力站是高通量中心,需要“联云成网”的技术。我们提出一个算力容器的抽象概念叫网程(grip),包含算力、算法与数据对象的融合,是分布式操作系统调度的最小单元,借鉴了进程(process)这个单机上的算力容器概念。
3、为什么算力是智能时代的普及性需求?
信息、出行、金融、通讯都是普适性需求,那么算力是普及性需求吗?假设是的话,算力就是智能时代信息加工的“电力”。
智能的本质是什么?这是一个开放性问题,智能的一个核心特征就是对信息的复杂处理能力,复杂就需要更多的算力。
智能不仅仅是人脑具有的生物智能能力,在不同社会阶段有着不同的特点。在农业社会,发现和利用自然规律是一种智能,都江堰“人工智能水利工程”的分水排沙就是智能的体现;在工业社会,自动化机械就是一种智能形态;在信息社会,数学机械化、计算自动化是通过计算实现智能是一个代表特征,随后计算智能拓展到了诸如逻辑、推理、感知、学习等智能能力,但在认知、想定等更高级智能上遇到了困难。
在数字化时代,在互联网上传输的是信息流,是算力对数据进行粗加工后的结构化抽象;在智能时代,在互联网上传输的是智能流,是算力对数据进行深度加工与精炼后的模型化抽象,是数据的百炼成钢,智能算法就是加工方法、加工流程、加工工艺。
图4:智能时代的互联网
图4是我们理解的智能时代的互联网,从中可以看出算力也就是信息处理能力成了普及性需求。互联网的最底层是数据通信网,5G/光纤/星网使得数据可以更广泛共享;上一层是互联网体系结构,IP网在这一层;再往上的一层是实现信息全球共享的万维网(WWW),在这一层再平行地实现一个存储与处理共享(包含处理三要素算力、算法与数据对象)的算力网(WWC);最上面的应用层有消费互联网和产业互联网,其中消费互联网的核心是浏览器和几个超级App,产业互联网的核心是什么还不明确,可能是算力编排器和元宇宙等。消费互联网实现了百业信息上网,产业互联网要实现千行模型上网。过去的信息技术侧重于赋能消费过程,未来的信息技术更侧重于赋能生产过程,我国跟发达国家相比,落后的也是生产过程的信息化。
4、算力网的演变
图5:算力网1.0:网格计算
图6:算力网2.0:云计算
图7:算力网3.0:效用计算
图5-7展示了算力网的演变过程。算力网1.0是网格计算,核心是三个关键词:超算中心、数据网络、网格门户。算力站是超算中心,连接网络是数据网络,消费端用的是网格门户(Portal),国内最典型的企业是并行科技。算力网2.0是云计算,算力站是数据中心,连接网络是信息网络,消费端用的是浏览器和终端,浏览器是软件,终端是硬件,国内典型的企业是阿里云。算力网3.0是什么还没有形成共识,有的专家说天空计算(sky computing),有的专家说效用计算(utility computing),算力站是高通量中心,中间的运营商是算力网络,消费端应该出现算器和物端,通用算器目前还没有做出来,通用物端也还没有成形。算力网3.0的目标是One Computer as Service,即全部算力看起来是一台大电脑,屏蔽各种差异性;消费端要用Service的方式去消费算力,要有算力的资源供给商、运营商、增值服务商这些业态;国内典型的企业还没有出现,很多企业在向这个方向努力。
5、第三代算力网的核心技术创新
当前的算力网还停留在研究异构多云统一调度的阶段,第三代算力网需要核心技术创新,至少应包括三方面:第一,需要对数据进行智能加工的新算力设备。第二,算力资源组织与算力使用的基础设施化;从算力供给端来看,要做到不同地点、不同结构、不同权属的云化算力资源的统一以及互联互通,屏蔽掉硬件层、系统软件层、应用基础层的差异,支持供给与运营间的站网解耦;从算力消费端来看,使用体验要达到高通量(指高并发下在响应时间限制内的有效负载数)、低熵(超载时保持有序性)、计量精准三个要求,未来还要考虑绿电的政策与经济因素。第三,需要比当前的docker容器更高级的分布式算力抽象,及使用它们的算礼(computing protocol)标准。这些创新是信息高铁技术体系的关键所在。
算力网就像一台“大电脑”,计算所正在做的创新工作,可以从分布式系统的视角来观察,有三类工作。第一类是新算力部件,包括智能处理器、高通量处理器等。第二类是算力站也就是机群系统的创新,包括单元标准化、性能可扩展、应用高效率,其中单元标准化,过去把机群节点基础软硬件标准化了,用KVM和JVM把同构的云基本标准化了,现在要把异构的云从IAAS、PAAS层进一步标准化;性能可扩展,过去关注的是高性能可扩展,提高并行度,现在要做到高通量可扩展,提高并发度,甚至是响应时间确保下的并发度;应用高效率,过去关注的是浮点效率,稀疏数据访问是难题,现在是吞吐效率,解决超载、并发负载互相强干扰下的资源有序使用的问题,不规则数据访问是难题。第三类是算力网的分布式PRAM模型,有三个关键词即无缝(P) +低熵(RA)+统一(M);其中P要实现对智能任务的无缝编程,我们提出了更小粒度的任务闭包(task closure)算力容器,以及原子钟粒度的分布式时间确保的算礼协议,还提出几种新的智能编程范式——OODA、云函数和主干编程,力图做到算力、算法、数据对象的无缝解耦与灵活组合。RA(Random Access)要保障算力网的低熵效率,我们提出低熵的DIP猜想,D是区分,I是隔离,P是优先,对应需要三个分布式技术,分布式标签用于区分,分布式控域用于隔离,分布式测调用于优先。M强调统一,用互联网模式实现异构云在资源层的全球互联互通。
6、信息高铁试验场
在信息基础设施层面构建新技术体系,需要建设试验场进行中试。当前,企业、新型研发机构都在策划、建设各种各样的试验场,计算所2020年开始在南京建设自己的信息高铁试验场。
图8:当前算力网试验场的进展
图8是目前算力网试验场的进展情况。从算力站的类型来说,大致分五类:超算是要算的快,指标看Flops,曙光公司的超算中心属于第一类,在试验超算算力网;高通量是要算的多,指标看Flows,睿芯公司的高通量中心属于第二类,在试验高通量算力网;智能超算是要AI算的快,指标看OPS,鹏城云脑、寒武纪的智能超算中心属于第三类,华为与鹏城实验室在试验智能超算算力网;大数据是要BD算的快,指标看处理的Bytes,现在国家发改委的国家大数据枢纽属于第四类,正在实施的东数西算工程中很多项目在试验大数据算力网;通用数据中心是要算的省,指标看单位任务花费的¥,阿里云、腾讯云、华为云、天翼云等公有云都属于第五类,中国电信等电信运营商倡导的算网融合在试验异地同属多云算力网。试验场实际上也是混合多种类型不同的算力站的。
图9:全球算力网和算力网雏形对比
信息高铁试验场的目标是试验全球算力互联网,即在全球范围内实现一个算力大电脑。和算力网雏形有什么不同?重点看一下算力类型、商业模式和编程模式三方面,如图9。从算力类型来看,传统算力站主要是CPU、GPU两种通用算力,信息高铁试验场要有DPU高通量算力、NPU智能算力、DCU智能超算。从商业模式来看,传统模式是帝国制,即大企业垄断,用户被锁定,迁移难度很大;信息高铁试验场要有互联网模式的统一算力资源,通过算力并网器和算力计量表,算力资源供给方可以自由地选择算力运营商,算力消费方可以自由地选择算力站,算力的供应商、运营商、增值服务商、最终用户可以在算力交易平台上自由地进行交易。从编程模式来看,传统算力网的核心是Java、信息浏览器、超级APP,信息高铁试验场要有新的编程模式,如JVM+KVM+CVM屏蔽掉差异性,多种算力编排器,以及元宇宙、OneITLab等大量消耗算力的超级APP。
过去两年多信息高铁试验场的实践已经证明了几个好处,第一,把地方政府投资算力站的空闲算力并网,以低价服务用户,应用的跨站调度是无感的;第二,多个分布式系统试验床更好地服务科研创新;第三,端边云垂直切片保障智能物端应用的响应时间;第四,算力编排器提供了多种低代码的智能算力编程方法,降低大众用户使用算力的门槛;第五,算力计量可更加精细。
三、计算技术体系的新结构
包含C体系、信息高铁体系在内,计算技术体系可归纳为以下新结构:
第1层是第五范式建模方法:计算技术的根本目标之一是对物理空间、社会空间的规律进行数字模拟(simulation),科学研究第三范式的本质是数值分析建模方法,科学研究第四范式的本质是数据分析建模方法,它们只能对简单系统进行数字建模,而建模对象如多尺度物理、权力运行、疾病的分子机理、农作物生长、社会舆论、军事对抗过程、工业生产流程等属于复杂系统,其数字建模需要第五范式,即智能科学建模方法,包括引入AI方法处理物理模型精确度不够的地方,引入光计算、超导计算、量子计算支撑高维组合优化问题(NP-hard)的近似求解,引入OODA智能流支撑计算-试验在数字物理空间的迭代法建模。
第2层是大数据与AI算法的云化:就是大数据分析引擎、智能算法、智能模型的云化与基础设施化,以及智能算法的安全。
第3层是信息高铁算力网:就是全球一台算力大电脑。
第4层是智能计算机:包括智能超算与边缘智能计算机,牵引性指标是OODA-Loops。
第5层是计算系统安全增强技术:就是在处理器、操作系统、编程语言、存储系统、机群、云计算系统等各层都要有可验证、可构造的安全增强技术,形成新的系统内安全防护体系。
第6层是C体系处理器:就是面向处理器生态可控的开源开放、敏捷设计的技术体系,是处理器芯片全国重点实验室的主要任务。
第7层是集成芯片制造方法:芯片设计与制造方法从以前的堆叠法变为构造法,包括复杂芯片分而治之设计方法、芯粒集成制造方法、芯片3D集成方法等。
四、总结
信息技术要向5G、高铁、北斗学习,努力建立高水平自立自强的计算技术新体系。展望2035年,最大的学术挑战是围绕系统熵建立起处理系统中不确定性的理论与方法,最大的工程技术挑战是发展出通用Z级计算的新技术,最大的应用技术挑战是实现算力互联网、数据对象互联网、算法模型互联网相互融合的新一代信息基础设施,将我国人均信息赋能的效率提高一个数量级。
(根据孙凝晖院士在2022年计算所春季战略规划会上的报告整理)