GPU受限，国内AI大模型能否交出自己的答卷？

科技云报道原创。

这个4月，成为国产大模型混战期。

继百度之后，阿里、华为、京东、360等大模型也陆续浮出水面，大模型军备竞赛正式开启。

4月7日，阿里云宣布自研大模型“通义千问”开始邀请企业用户测试体验。

4月8日，华为云人工智能领域首席科学家田奇现身《人工智能大模型技术高峰论坛》，分享了华为云盘古大模型的进展及其应用。

同日，京东集团副总裁何晓冬表示，京东将在今年发布新一代产业大模型，言犀是“京东版”ChatGPT。

4月9日，360正式官宣，基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景，将面向企业用户开放内测。

但有业内人士指出，大模型的训练需要庞大的算力资源，GPU是大模型的最佳算力发动机。

截至目前，英伟达的GPU芯片正在为全球绝大多数的人工智能系统提供最基础的算力支持。

那么，在GPU受限的情况下，国内AI行业发展境况如何，能否交出属于他们自己的答卷？未来的发展是否会与国外越差越大？

国内厂商大囤AI芯片

众所周知，OpenAI ChatGPT大模型能有今日风光，英伟达的芯片A100功不可没。

公开数据显示，凭借10000片英伟达的GPU芯片，OpenAI成功训练出了GPT-3大语言模型。

TrendForce研究显示，以A100的算力为基础，GPT-3.5大模型需要高达2万枚GPU，未来商业化后可能需要超过3万枚。

在这个ChatGPT的出圈元年，英伟达作为全球算力硬件当之无愧的龙头公司，今年前三个月市值翻了一番。

近日，英伟达又不负众望，推出了适用于ChatGPT的专用GPU，可以将推理速度提升10倍。

但值得注意的是，自2022年9月，美国禁止向国内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片。

基于此，针对中国用户，英伟达按照A800操作模式（A100芯片的降维版本），推出了完全符合出口规定的H100的降维版本芯片，具体参数并未公布。

然而，无论是A800，还是H100中国版本，都和国外市场可使用的原版芯片存在差距。

据公开信息显示，英伟达专供中国的A800芯片，其传输速度只有A100的70%。

国内企业担心以后会买不到英伟达AI芯片，自美国制裁令开启，就开始大举囤芯片。

有厂家自去年下半年起就持续在市场中寻觅能拆出A100的各类整机产品，目的仅是获得GPU芯片。

但据媒体报道，国内拥有超高算力芯片的厂商并不多。国内云厂商主要采用的是英伟达的中低端性能产品，拥有超过1万枚GPU的企业不超过5家。

其中，拥有1万枚英伟达A100芯片的最多只有一家。

而国内云计算相关专家认为，做好AI大模型的算力最低门槛，就是1万枚英伟达A100芯片。

国内外AI芯片存在差距

从长远来看，未来大模型的研发和部署是必然趋势，而每个大模型训练和部署的背后，都有几万个GPU芯片在支持。因此，通用GPU市场需求将会迎来爆发式增长。

据Verified Market Research数据，2020年中国大陆的独立GPU市场规模为47.39亿美元，预计2027年将超过345.57亿美元。

有业内人士指出，作为大模型的主要入局者，国内互联网大厂拥有天然的数据优势，自然不希望因算力被卡在大模型能带来的广阔世界和商机之外。

在经历制裁后，国内的大型互联网企业在采购相关芯片时，尽管目前还是会购买英伟达，但也有相关的国产化替代方案。

因此，在这波替代潮中，国内的寒武纪、昆仑芯、燧原、华为海思、海光、沐曦、摩尔线程等中国新一代GPU芯片研发公司，都将迎来非常大的机会。

但同时，也需要看到国产GPU芯片与国外的差距，具体而言：

大模型对于算力的需求分为两个阶段，一是训练出ChatGPT这类大模型的过程；二是将这个模型商业化的推理过程。

在大模型训练阶段，需要处理高颗粒度的信息，对云端训练芯片的芯片处理信息的精细度和算力速度要求更高，而现阶段国产GPU大多还不具备支撑大模型训练所需的能力。

不同于多媒体和图形处理的单精度浮点计算（FP32）计算需求，在超算领域，双精度浮点计算能力FP64是进行高算力计算的硬性指标。

英伟达的A100同时具备上述两类能力，而国内GPU芯片的云端训练公司，大多只能处理单精度浮点计算，如壁仞科技（通用GPU芯片BR100）、天数智芯（“智铠100”）、寒武纪（云端推理思元270）的产品在FP32的理论指标上做得不错，但没有处理FP64的能力。

根据公开消息，目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU（协处理器），但是它的性能只有A100的60%左右。

但有专家认为，国内通用GPU产品在满足大模型训练上与国际旗舰产品存在差距，但并非不可弥补，只是此前行业在产品定义里未朝着大模型方向做设计。

目前国产GPU公司都在朝着大模型领域去做布局。

昆仑芯表示，昆仑芯2代芯片相较第一代产品大幅优化了算力、互联和高性能，公司正在不断研发新的产品和技术，为ChatGPT等大模型的应用提供更佳的性能体验。

登临科技新一代Goldwasser产品针对基于Transformer的网络和生成式AI类大模型的应用在性能有大幅提升，对标国际大厂的产品有明显的能效比和性价比的优势。

燧原科技宣布对公司品牌做战略升级，要打造AIGC时代的基础设施。

摩尔线程则表示将推出基于公司全功能GPU的AIGC算力平台。

此外，行业从业者也都在做相关的探索和努力，如思考能否通过Chiplet（将芯片堆叠或者并列摆放）、先进封装的方式提高算力。

国产AI芯片尚需生态支撑

事实上，比起硬件性能上的差异，软件适配与兼容让国内客户接受更难。

当大模型和应用层面的竞争拉响，从商业角度思考，采用国产AI芯片参战并不是好的选择。

从硬件性能上，使用国产AI芯片计算会比采用英伟达A100慢，在分秒必争的当下，“慢”是企业最不愿意看到的场景。

此外，哪怕能通过堆芯片的方式堆出一个算力相当的产品，从服务器运营的角度，它的主板开销、电费、运营费，以及需要考虑的功耗、散热等问题，都会大大增加数据中心的运营成本。

对厂商而言，把国产AI芯片用起来并不容易。

算力的释放需要复杂的软硬件配合，才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU，需要突破CUDA生态和整个产业生态的壁垒。

先说CUDA，为了把GPU的算力能力进一步发挥，英伟达花了10年时间，投入3000多人打造了一个CUDA框架。

这套框架里集成了很多调用GPU算力所需的代码，工程师可以直接使用这些代码，无须一一编写。

如果没有这套编码语言，软件工程师发挥硬件价值的难度会变得极大。

目前世界上主流的深度学习框架都基于CUDA进行加速，整个产业中下游软件、驱动厂家等都基于此进行适配。

这构成了一个极强大的生态壁垒，就像苹果系统内部的闭环生态，和window操作系统+上层应用软件一样。

尚处于创业阶段的芯片设计公司，很难在生态上投入如此大的人力财力，大多会选择兼容CUDA架构，来降低客户使用门槛。

当然，也有部分公司会选择自研加速器，如：寒武纪就构建了自己的加速平台；昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈，希望打造自己的生态，也能摆脱硬件需受CUDA更新的困扰。

但即使有了这个编程框架，整个产业生态上的人也很难把这个芯片用起来。

对于企业来说，更换云端 AI 芯片要承担一定的迁移成本和风险，除非新产品存在性能优势，或者能在某个维度上提供其他人解决不了的问题，否则客户更换的意愿很低。

为此，国内从业者已经在构建生态上做努力。

在一个AI生态中，支撑大模型训练需求，需要底层硬件、中间深度学习平台、上层应用软件的整体适配、互相支持。

例如，2022年4月，百度飞浆已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商，31种芯片的适配和优化，基本覆盖国内主流芯片。

昆仑芯和飞浆完成3级兼容性适配，登临科技和飞浆也完成2级适配，沐曦集成电路和飞浆完成1级兼容性测试。

除此之外，华为的MindSpore和爱可生向量数据库兼容；智源研究院的九鼎智算平台也在和多家国内AI芯片公司合作。

结语

未来，大模型训练对算力的需求会越来越大。想要参战大模型竞赛，算法、算力、数据环环相扣。

在最卡脖子的芯片环节，如何缩小差距，成为国内厂商求共解的命题。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

为您推荐

大模型落地，如何跨过数据这道坎？

AI撕掉数字时差：“极致全球化”已无退路

中国电子云曹心驰：做成云计算“国家队”该有的样子

2021年勒索病毒呈现七大趋势

亚马逊、微软、谷歌最新财报出炉，云业务上演“神仙打架”？

数字化时代 云原生安全为何变得如此重要？

数字化时代云原生安全为何变得如此重要？