近日,备受瞩目的AI盛会GTC 2024在美国召开。作为业界领先的云计算科技企业,优刻得受邀参会。在GTC专题会议环节,优刻得研发总监王晓慧发布了基于DPU裸金属的训练集群,演示了集群在大模型场景的应用实践,并与全球开发者共同交流探讨智能算力新风向。
王晓慧分享道,大模型训练需要消耗大量的计算资源和时间,如何高效地搭建和管理训练集群成为加速大模型落地的核心挑战。在NVIDIA的支持下,优刻得率先将DPU应用于裸金属物理云,实现了软件定义的计算、存储和网络,助力集群计算效率提升。她强调,DPU裸金属训练集群为高带宽、低延迟、数据密集的大模型训练场景提供强大的计算引擎,大幅提升了网络处理能力和数据传输速度。
基于DPU裸金属所构建的训练集群在高性能计算、数据和模型并行处理等方面优势突出,可轻松应对大模型时代下的严苛性能要求和工作负载挑战。DPU裸金属集群可以提供训练所需的强大算力,具备千卡规模的模型训练能力;同时以低延迟、高吞吐的特性,充分满足了大规模数据处理和高并发场景的需求,加速模型训练过程。此外,DPU的引入赋予了训练集群更高的灵活性和可扩展性,使得用户能够根据实际业务需求灵活选择适配的硬件和软件堆栈,确保持续优化模型的训练性能和效率。
会上,王晓慧还进一步分享了优刻得孔明智算平台在大模型训练场景中的优势。孔明智算平台是优刻得自主研发的一款智能算力管理平台,能够帮助大模型公司提高训练效率、优化模型性能、降低开发成本。用户可以轻松构建并管理训练集群,并对计算资源的智能调度和优化配置,无需将更多精力关注在底层资源层面,从而实现更加高效的大模型训练。
为应对大模型训练过程中通信异常挑战、及时发现故障所在,优刻得结合英伟达的GPU Direct Storage技术,自主研发了UPFS并行文件存储系统。UPFS显著提升了存储系统的吞吐能力,使得CheckPoint的速度相较于传统存储提升了近10倍,确保提高训练效率和快速恢复训练。优刻得智算平台支持对同构、异构卡的统一调度与管理,以分区的方式提供不同的资源池;同时,支持TCP/IP协议、IB和RoCE等多样化的网络接入方案,拥有断点续训、数据备份、自定义故障恢复等机制,避免训练过程中的意外中断,为大模型训练的安全性和连续性提供保障。
目前,优刻得DPU裸金属训练集群和智算平台已在大模型分布式训练、自动驾驶、生物医药、工业制造等领域落地应用,能够胜任在AI领域内的各类业务需求。在生物医药领域,基于高性能计算能力,研究人员能够更快速地进行复杂的分子模拟和仿真训练,加速药物研发和优化过程;在工业制造领域,帮助企业提高工业仿真、工业复核等任务效率,优化生产流程,以实现智能制造。
优刻得智能算力已广泛服务于大模型和人工智能企业,为智谱AI构建超千卡规模推理集群,实现成本效益和服务质量的平衡;为AI绘画平台图蝇AI提升图片生成效率和质量,设计效率提升5倍以上;为出门问问数字人应用研发提供海量算力,5分钟内即可实现数字员工形象定制和上岗。
当下,优刻得已在GPU、DPU和存储等多个领域建立了优势,不仅为用户提供高性能底层算力资源,更凭借丰富的大模型工程化实践,为众多大模型企业提供有力支持。未来,优刻得将更好地为全球用户提供智能高效、稳定可靠的AI智算基础设施,助推更多大模型应用的研发与落地。