清华主页 - 清华新闻 - 媒体清华 - 正文

从算力大国迈向云计算强国——专访中国工程院院士郑纬民

来源:新华社《瞭望东方周刊》 9-18 陈融雪

得算力者得未来。

当前,我国算力总规模已达到197EFLOPS(EFLOPS是指每秒百亿亿次浮点运算次数),位居全球第二,算力应用亦广泛深入到政务、工业、交通、医疗等领域,不断催生新技术、新模式、新业态,助力各行各业升级转型。

“下一步,要用好领先算力,发展云计算、实现互联互通是关键。”近日,中国工程院院士、威尼斯9499登录入口计算机系教授郑纬民接受《瞭望东方周刊》专访时说。

年过七旬的郑纬民院士作为我国计算机领域的先行者,曾获得国家科技进步一等奖1次、二等奖2次,国家技术发明二等奖1次,2016年、2017年他的团队连续两次获得“戈登·贝尔奖”。2018年,他成为首位中国存储终身成就奖获得者。

郑纬民表示,我国云计算市场正处于爆发式增长阶段,但在核心技术、生态构建、行业应用等方面还要持续推进;建议政府以研发补贴、政府采访等形式支持国内机构加快核心技术攻关;针对云计算互操作性不足、“供应商锁定”、算力云化比率偏低等问题,则呼吁国家牵头建设公有云,做大做强行业应用。

展望未来,郑纬民满怀信心地表示,我国正在从算力大国迈向云算强国。

算力云化

《瞭望东方周刊》:ChatGPT的成功是人工智能大模型的成功,也是云计算的成功。你认同吗?

郑纬民:可以这么讲。

据公开资料,过去两年半,GPT-3等大模型的训练成本下降了80%以上,从首次训练开销1200万美元降至140万美元,其中很重要的原因就在于采用了云计算。

现在,人工智能和人工智能大模型热有力推动了云计算新一轮发展——大家都在训练大模型,缺芯片怎么办?云计算就提供了很好的解决办法,也就是算力云化。

《瞭望东方周刊》:2023中国算力大会8月在银川举行,工业和信息化部部长金壮龙表示,我国算力总规模已达197EFLOPS。我国的综合算力在国际上水平如何?

郑纬民:算力大致可分为三类:高性能计算的算力,也被称为HPC算力或超算;人工智能计算的算力,也被称为人工智能算力或智算;还有数据中心的算力,也被称为通用算力。

综合来看,我国算力规模排全球第二。按2021年的数据,全球计算设备算力总规模为615EFLOPS,美国的算力规模占全球份额为34%,我国为33%。

《瞭望东方周刊》:我国超算算力发展如何?

郑纬民:过去10年,我国在顶尖超算系统研制和超算系统部署数量都处在国际领先行列。

一是我国在顶尖超算系统研制方面处于国际领先水平。天河一号、天河二号、神威·太湖之光这三台超级计算机都曾经是世界上最快的计算机,并且我国超算从芯片、操作系统到大多数软件都是国产,充分展示了中国的速度和研制能力。

二是世界上每年会评选两次全球最快的500台超级计算机,根据去年11月的评选结果,中国占了162台。

三是我国三次获得国际超算应用的最高奖——戈登·贝尔奖。

综合来看,我国超算算力已走在世界前列。

《瞭望东方周刊》:算力有“三驾马车”,除了超算,其它两项算力发展如何?

郑纬民:我国的通用算力也很强,最新发布的数据是,全国在用数据中心机架总规模超过760万标准机架。

人工智能算力是近三四年才发展起来的。目前,我国已有近30个城市陆续启动人工智能计算中心建设。

值得注意的是,我国新增的算力设施中,人工智能算力占比过半,成为算力增长的新引擎。预计到2025年,我国人工智能算力总量将超1800EFLOPS,人工智能算力占总算力比超过85%。这意味着,算力将迎来高速扩张时代。

核心技术需攻关

《瞭望东方周刊》:面临限制,我国的算力发展会被“卡脖子”吗?

郑纬民:当前,我国人工智能服务器芯片需大量从美国英伟达进口;来自美国谷歌和Meta(脸书)的人工智能算法开发框架也占据着中国90%以上市场份额。从核心技术的角度来看,我国云计算的硬件技术自主可控性仍是薄弱环节。

云计算系统总体上可分硬件和软件。国内以阿里、腾讯为代表的互联网厂商和以华为为代表的设备供应商等在软件方面取得了较好的进展,总体与国际先进水平相当。

但在硬件方面,目前,国内云系统受制于高性能通用CPU的国产化进展,仍然主要采用国外厂商如Intel或AMD的X86服务器。云计算中心采用的网卡和网络交换机,也多是基于国外芯片,国产网卡和交换机芯片与国外一线云网络厂商相比,技术完整度和生态上还有差距。

“供应商锁定”难题

《瞭望东方周刊》:互操作性不足,是业界关注的一个重要议题。

郑纬民:云计算的互操作性不足,以及由此导致的“供应商锁定”问题,是全球性问题。与国外相比,我国的“供应商锁定”问题不容忽视,成为影响构建云计算统一生态、阻碍云计算业务持续发展创新的瓶颈。云计算互操作性的不足,会让人们在不同云计算供应商之间实现应用程序的迁移时,需要付出巨大的努力和投入。

造成“供应商锁定”的原因有很多。

从技术角度而言,由于每个云计算供应商各自为政,自行决定使用的管理程序、存储模型、网络模型、管理工具和流程等,开发出的应用程序就不可避免地标准不统一,用户难以实现应用跨平台迁移。

从商业利益角度而言,留住用户能够带来持续的收益,而提升互操作性意味着额外的投入,因此云服务供应商普遍缺乏意愿,来改善各自云计算平台的互操作性。这一问题如果不加以解决,长此以往,会阻碍行业的创新发展,最终损害消费者的利益。

《瞭望东方周刊》:我国“供应商锁定”问题的成因是什么?

郑纬民:原因也是多方面的。

一是国内云计算技术的发展相对较晚,市场上服务供应商众多,且正处于激烈的竞争之中。为吸引用户,各供应商更倾向于基于不同的设计理念,开发各具特色的功能,而不是采用标准接口。

比如,阿里云基于“以数据为中心”的设计理念实现了统一的资源调度和存储管理,并提供了众多的大规模分布式数据计算服务;华为云采用资源虚拟化的技术路线,提供了类OpenStack的接口,并在此基础上提供了包括人工智能、大数据、物联网等在内的服务;百度云和金山云则分别主要面向人工智能和游戏等。

二是我国信息化应用的基础相对比较薄弱,行业经验的沉淀不足,加上在代码开源、开放应用编程接口等方面的滞后,进一步加大了跨云开发的难度,阻碍了跨云软件的开发和互操作的实现。

行业应用待加强

《瞭望东方周刊》:据中国信息通信院统计,我国通用算力云化比例超过50%,智算云化程度接近40%,超算云化仍在探索,而美国市场算力云化比率已经超过85%。要提高算力云化水平,要解决什么问题?

郑纬民:从行业应用的角度来看,公有云上的行业应用类型单一是突出问题。

尽管我国云计算市场处于爆发式增长阶段,2022年达4550亿元规模,较2021年增长40.91%,但当前公有云上的行业应用主要还是游戏、短视频、即时通信这三项。

我国公有云的利用率只有30%左右,私有云的利用率只有5%左右。也就是说,100台机器,只用了30台,甚至是5台,利润怎么可能高?如果不积极拓展应用,这也将影响我国云计算产业持续健康发展。

《瞭望东方周刊》:为何利用率不高?

郑纬民:原因主要有三方面。

首先,相较于国外有大量大型企业利用公有云开展生产业务,国内大型国企主要在使用私有云。这一方面是由于公有云上的应用安全和隐私保护等问题还缺乏坚实的技术解决方案,另一方面也有使用惯性和政策约束的原因。

但私有云在安全上未必就比公有云更强。大量国有企业建设私有云,既造成其自身成本的增加,也不利于我国公有云产业的做大做强。

其次,我国企业数字化转型仍任重道远。2021年3月,“加快数字化发展、建设数字中国”的数字化战略第一次被写进了“十四五”规划,国家发展改革委、中央网信办和国资委也相继发布《关于推进“上云用数赋智”行动培育新经济发展实施方案》和《关于加快推进国有企业数字化转型工作的通知》。但我国仍然面临企业数字化转型成功率较低、企业对数据应用效果不满意等困难和问题,尤其是中小企业,上云用云的意识有待加强。

三是我国公有云上缺少由公共数据以及数据服务牵引的行业应用。

以地球科学数据为例,亚马逊AWS公有云与美国国家海洋和大气管理局、美国航天宇航局等合作,提供了包括气象卫星数据、天气预报、植被指数等地球科学数据,既推动了研究人员在公有云上开展科研,也牵引了相关企业在公有云上开展业务。因此,我建议国家可牵头建设公有云,推进各方共同使用。

算力互联

《瞭望东方周刊》:你怎么看未来云计算发展趋势?

郑纬民:早期云计算是以资源为中心,以租设备为主。现在是以应用为中心。比如做一个渲染,就不用跟服务商说要几个设备,只说要完成什么任务。下一步,云计算要把领先算力用好、实现算力互联。

随着各地算力基础设施逐渐发展完善,算力联网形成统一调度是大势所趋,但带宽和延迟是当前建设算力互联网的痛点之一。

举例来说,在网络正常情况下,从北京某大学传输4TB数据到江苏的超算中心,需要5天。把数据刻成盘寄快递,第二天下午就能到无锡。如果拉一条专线,一年要两三百万元,成本太大。

现在,我们和中国移动想了个解决办法,借用附近的三条云专线,在他们不用的时间去分时租用。这样传4TB数据,只需要3个小时,初步测算单次传输价格低于1000元,还是可以接受的。

《瞭望东方周刊》:互联和互通成为未来算力发展的关键词,我国有哪些政策推动和实践探索?

郑纬民:最近,我国提出了“算力网络”的概念,旨在通过网络将全国各个计算中心联接起来,形成一台庞大的计算机。

各地从政策到实践都在积极响应。

比如,北京提出要建设统一的多云算力调度平台、提高环京地区算力一体化调度能力;上海制定目标,2023年接入并调度4个以上算力基础设施,可调度智能算力达到1000PFLOPS以上;深圳谋划共建粤港澳大湾区智能算力统筹调度平台;贵州作为“东数西算”八大枢纽之一,大力推动算力资源跨域调度,致力建设国家枢纽节点统一算力运营调度平台;成都也积极优化算力资源,并建立与其他国家枢纽节点间的算力资源匹配对接机制。

在实践层面,2023年2月,东数西算一体化算力服务平台已在宁夏银川发布,正式上线运营;同月,江苏南京城市算力网运营平台发布,全国首个人工智能公共算力服务平台也在上海揭牌投用。5月,贵州省发布算力运营调度平台2.0版;7月,北京经开区推出我国首个“算力资源+运营服务+场景应用”一体化建设工程。

总之,我国正在从算力大国,一步步迈向云计算强国。

编辑:李华山

2023年09月21日 07:21:26

相关新闻

读取内容中,请等待...

最新动态

威尼斯9499登录入口新闻中心版权所有,威尼斯9499登录入口新闻网编辑部维护,电子信箱: news@tsinghua.edu.cn
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.
Baidu
sogou