科技云报道原创。
近年来,以AI机器学习、大规模视频处理、大规模数据处理等为首的高负载云计算应用日益增多,其场景运算强度大、高并发、应用复杂,对云计算厂商的服务质量提出了前所未有的极高要求,并倒逼服务器芯片加速发展。
尤其是在“云原生”的概念提出后,传统IT时代的云计算更多是为了适配当前的IT架构,进而适配各类应用。
可在云原生时代里,很多应用本身就是生于云、长于云。
如何根据这些云原生应用的需求打造更适宜其生长的土壤,成了云厂商技术变革的头等大事。
“云土壤”的改造既涉及软件、架构、操作系统,又涉及网络、服务器、计算板卡,更会涉及最为核心的算力来源——芯片。
巨头厂商扎堆云计算芯片
中国信息通信研究院发布的《云计算白皮书(2022年)》指出,随着经济回暖,全球云计算市场所受影响逐步减弱,至2021年已基本恢复到疫情前的增长水平。
2021年,中国云计算总体处于快速发展阶段,市场规模达3229亿元,同比增长54.4%。
其中,公有云市场继续保持较快发展,同比增长70.8%,达到2181亿元,成为未来几年中国云计算市场增长的主要动力;私有云市场突破千亿元大关,同比增长28.7%,增至1048亿元。
云计算逐渐出现虹吸效应,并在安全性、网边端形成新的服务方式。JP Morgan报告认为,到2025年,数据中心的芯片市场价值将近180亿美元。
随着国家“十四五”规划的推进以及新基建的投资,未来五年,中国服务器市场将保持健康稳定的增长。
2021-2025年,中国服务器市场规模将由257.31亿美元升至410.29亿美元,保持12.5%的年复合增长率,服务器芯片也将迎来广阔市场。
当然,云计算中涉及的芯片种类繁多,各家侧重点也有所不同。
比如,阿里的含光800、谷歌的TPU、以及芯片厂商英特尔的Habana Gaudi 2、英伟达的H100等,都是侧重于人工智能应用的计算芯片。
此外,近年间还有DPU、IPU、CIPU等新型数据中心处理器。
云计算芯片市场的老玩家——CPU自然也不会缺席。
目前,全球服务器芯片的架构仍然以x86独大,ARM与其他架构份额较小。
根据JP Morgan的数据显示,目前还没有明显迹象表明大量的数据中心开始从x86架构转移到ARM架构。
预计到2025年,x86仍会是数据中心主要架构,预计仍会有90%市占率。
CPU架构设计难度大、生态壁垒高,一直是芯片产业的集大成之作。然而,哪里有垄断,哪里就有挑战者。
从2008年开始,ARM就持续对服务器芯片市场发动了进攻,惠普、AMD、博通、高通等芯片设计公司都曾陆续推出相关产品,可惜大多折戟。
然而,市场并未因一时的失利而失去信心。
2018年,ARM发布ARM Neoverse计算平台,瞄准了云计算服务器、HPC、AI与机器学习加速这几大场景。
随后几年里,AWS推出Graviton系列服务器CPU;Ampere Computing推出80核Ampere Altra和128核Ampere Altra Max服务器CPU;国内厂商飞腾推出多款服务器CPU。
话语权不足引各厂商自研芯片
由于晶圆代工及封测成本大增,AMD的EPYC服务器芯片或将涨价10%—30%,届时服务器芯片的战况将更趋白热化。
无论是英特尔芯片的延迟发布,还是AMD可能的涨价,种种行为都在某种程度上剥夺着云服务厂商等下游企业的话语权和自身的发展节奏。
云厂商自研服务器芯片可以减轻对第三方供应的依赖;另一方面是自研芯片可以降低成本,自研芯片能够让云服务商在每个业务流程中做到效率与成本的最优化。
此外,自己的芯片更适合他们的某些需求,与英特尔、AMD等厂商提供的现成芯片相比,具有成本和性能优势。
构建自家的芯片能够在各种层次上进行更快的创新,提高安全性和灵活性,并提供更多价值。自研芯片可以控制项目的开始、进度和交付的进程;可以将硬件和软件并行开发,并使用大规模的云来进行构建芯片所需的所有模拟。
在云服务上,自研芯片带来的成本降低是巨大的。云服务头部厂商基本定型之后,价格战就成了拉拢新客户留住老用户的必经之路,Arm服务器芯片带来的高功效意味着他们可以推出定价更低的实例。
但设计能力、设计成本等多因素的取舍使得不少服务器芯片厂商开始选择不同的技术路线,有的紧跟Arm Neoverse核心,有的则选择了自研。
诚然是芯片独立的需求,另一方面也来自用户和技术。
定制自研芯片的核心目的并不是为了与传统芯片厂商进行竞争,而是来自用户自下而上的需求:性能和成本。
目前,对于计算场景的应用复杂程度已经倒逼芯片处理性能的提升。多重负载,尤其是在机器学习方面,芯片性能直接制约了算法的应用。
非常规芯片正成为算力不断变化和竞争压力下的选择,通用的CPU和GPU难以满足。
因此不少云厂商选择在与芯片厂商合作的同时,开始根据自己特定的需求自研芯片,以达到最高程度的适配,从而提升整体的竞争实力。
自研云计算芯片成下一个爆发点
过去的十年间,信息的生成、处理和存储方式发生了根本性的转变。
面对互联网高速发展的业务,急剧增长的用户,脉冲流量让传统的IOE(IBM小型机、Oracle数据库、EMC存储)技术架构捉襟见肘,解决算力不足的问题几乎只能靠扩大采购规模,搭建一套全新的技术架构才是最优解。
十多年前的云计算公司,最重要的任务是扩大数据中心的规模,自研芯片有些遥不可及。
但有远见和抱负的云计算公司,那时起就迈上了通过自研解决问题的长路,从自己擅长的操作系统起步。
如今,云计算巨头们的核心目标已经不再是业务扩张的速度,深入底层技术,提高更具性价比和满足差异化的需求成为新的目标。
此时,AWS、阿里云等全球领先的云计算巨头们又不约而同地将目光投向了能够提升云计算性价比的云原生CPU。
在2022杭州云栖大会上,阿里巴巴公布了自研算力体系新进展,其自研CPU倚天710已经在数据中心大规模部署,并以云的形式服务阿里巴巴和多家互联网科技公司,算力性价比提升超30%,单位算力功耗降低60%,成为中国首个云上大规模应用的自研CPU,实现算力攻坚重大突破。
未来2年,阿里云20%的新增算力将使用自研CPU。
从芯片架构来看,倚天710基于最新的ARMv9架构,内含128核CPU,主频最高达到3.2GHz,能够同时兼顾性能和功耗。
基于倚天710的云计算实例在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升30%以上,单位算力功耗(耗电量)降低了60%以上。
百度Apollo在近日举行的Apollo Day技术开放日上,推出了新一代自研的云端通用芯片——昆仑芯二代AI芯片。
据了解,这颗芯片基于7nm工艺打造,配备GDDR6高速显存,内存带宽可达512GB/s,采用新一代昆仑芯 XPU-R 架构,通用性和性能显著提升。
目前,该芯片已完成无人驾驶场景端到端适配。
在2018年,亚马逊云科技发布了Arm架构的Amazon Graviton处理器。
这是亚马逊云科技自研、为云计算而设计开发的芯片。
2020年Graviton2发布,性能比第一代提升了 7 倍;2021年推出了第三代,性能比二代提升四分之一,浮点计算性能提高了两倍。
今年,在re:Invent 2022大会上,亚马逊云科技发布了Graviton3E。
这是针对高性能计算优化的版本,面向机器学习浮点和矢量数学计算做了优化,在 HPL 基线测试中,工作负载的性能提高35%。
基于Graviton3E芯片,亚马逊云科技推出了面向高性能计算的HPC7g,适用于天气预报、生命科学、工程计算等高性能计算场景,最多可以提供64个vCPU和128GiB内存。
亚马逊云科技是云厂商自研芯片的重要代表,大型云服务商为了实现差异化基础设施服务,都在向上游延伸。
该公司还推出新一代Nitro网络芯片和Inferentia2机器学习加速推理芯片,均为专用芯片:Nitro网络芯片用途接近近年流行的“DPU(数据处理器)”,用于处理海量数据;Inferentia2用于运行大型深度学习模型,满足AI计算需求。
当算力作为新生产力的确定性被不断验证,以阿里云、AWS为代表的云计算企业,正努力将对算力的主动性,牢牢掌握在自己手中。
因为他们深知,随着新一轮科技变革的深入发展,只有掌握了核心技术,才能抓住未来技术的定义权。
【关于科技云报道】
专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。