开箱即用的UCloud大模型一体机,助力垂直大模型私有化交付

Al生成与大模型,作为当今人工智能领域炙手可热的话题,为相关产业链带来新的机遇和挑战。在2023世界人工智能大会上,优刻得分享了“中立安全云计算助力大模型发展”的技术产品、工程能力和生态建设等诸多能力,特别提到私有化是垂直大模型未来的发展方向。

面向政府、金融、教育、制造、基金等行业客户及大模型企业的大模型私有化交付场景,优刻得推出国内第一款私有化大模型一体机,内置优刻得自主研发的全栈私有云平台,结合行业垂直大模型一体化交付给客户,用户可在企业内部一键部署大模型应用,安全便捷的提供AI训练和推理等服务。

私有化大模型一体机,构建安全可靠的AI底座

随着垂直行业大模型应用场景的丰富,企业为用户提供大模型应用时,需要将大模型私有化部署,以保障大模型和数据隐私及安全合规性,同时与业务对接共同提供特定的AI场景服务。在此模式下,如何配置适合的计算、存储、网络及管理资源,以满足私有化大模型训练/推理任务的需求和安全要求,是私有化AI算力底座优先要解决的问题。

为实现大模型私有化交付,优刻得大模型一体机,基于一云多芯且自主可控的UCloudStack全栈私有云平台,提供虚拟化、存储、网络及MaaS模型的私有化一体交付方案,支持Alpaca-LoRA、ChatGLM、T5、MiniGPT-4、Stable Diffusion、LLaMA2及Milvus向量数据库等开源模型的部署及算力调度,用户可在本地或自有数据中心内,轻松部署针对特定场景的大模型服务。

UCloud AIGC私有化方案架构

优刻得私有化大模型一体机具备以下几大优势:

1. 私有化算力中心 训练推理专区建设

基于“东数西算”两大自建数据中心——内蒙古乌兰察布和上海青浦数据中心,UCloud大模型一体机为大模型训练和应用提供低成本、高附加值的私有化算力服务。自建数据中心内,提供多款GPU大模型一体机算力资源,分别建设灵活可扩展的AI训练和推理专区。

训练区主要以A800/H800及未来更高性能GPU一体机进行集群建设,单集群规模最大可达2048卡规模,可将GPU卡直接透传至训练算力实例,并通过高带宽、低延迟的高性能网络设计和高性能并行存储系统,打造互联的高性能计算集群,实现多节点间无损通信,满足用户多节点并行计算,提升整体训练效率。

推理区主要以通用GPU卡一体机进行建设,如T4/V100/V100S/A800,结合私有云的智能调度、弹性伸缩及资源编排进行推理业务覆盖。同时基于运行环境一键打包和算力调度技术,实现训练推理无缝切换和自助管理,并通过全面多维度安全保障体系,保障大模型和数据的安全。

2. 开箱即用一键部署 训练推理无缝切换

UCloud大模型一体机,统一底层CPU、GPU、存储及网络资源,结合大模型与业务数据,为上层大模型预训练或推理应用,提供灵活可靠的虚拟化、GPU计算、容器调度、安全隔离网络、统一分布式存储及数据库缓存等云基础设施,实现快速部署、简化管理,助力AI应用高效交付稳定运行。

集成通用AI和大模型的GPU标准镜像和模板,快速打包算力基础运行环境并实现一键部署,支持运行环境模板的一键拉起,结合调度管理和分布式存储系统,使得GPU算力环境,通过标准S3或NFS协议从存储系统中拉取并加载大模型到内存中,进行预训练或推理计算任务。

同时,在计算资源调度层面提供K8S容器调度服务,无缝对接云原生架构的资源调度和作业任务管理系统,用于模型切换、训练任务、推理任务的作业管理。基于运行环境一键打包和算力调度技术,使得一体机既可作为训练的算力运行环境,又可在训练结束后,无缝切换至推理业务部署模式,确保基础设施成本可控且安全。

3. 分布式存储平台 加速AI模型训练

大模型训练时,基础设施需要提供高速读写能力、可扩展且可兼容POSIX的共享存储系统,以满足大规模数据集的训练需求。UCloud大模型一体机基于UCloudStor统一分布式存储,统一对外提供文件和对象存储,可为训练框架提供POSIX和K8S-CSI接口,便于算力调度接入,并结合冷热数据分离的存储形态,提升数据读写性能、加速AI模型训练,满足千卡规模训练需求。

 UCloud大模型训练存储架构设计

大模型一体机训练集群底层依赖UCloudStor分布式对象存储,用于存储最终的数据。同时每个GPU算力实例上放置本地缓存,包括元数据和数据缓存。热数据和元数据存储在GPU计算实例挂载的高性能SSD/NVME云盘内,冷数据使用分布式存储的对象存储。

在大模型训练数据访问时,每个GPU计算实例均有多级缓存,第一级是基于内存的缓存,第二级是基于实例内SSD/NVME云盘,只有实例云盘缓存没有命中时,才会访问第三级对象存储。热数据缓存在GPU实例缓存磁盘上,通过预取可最大化发挥算力性能,达到加速数据I/O的效果。

4. 高性能计算网络 高效率模型训练

私有化大模型训练场景下,需基础设施提供高带宽和低延迟的网络连接,以支持大规模数据传输和分布式训练。UCloud大模型一体机基于RDMA RoCE网络模型,构建单计算实例1.6T ETH RDMA网络,为私有化大模型训练和调试提供高性能计算网络,提升GPU利用率,降低通信时延,提高大模型训练效率。

UCloud大模型训练高性能计算网络

大模型一体机可分别搭配8张GPU卡和200G RDMA网卡,平台采用直通模式将GPU和网卡直接透传给GPU计算实例,结合高性能RDMA RoCE无损物理网络架构,支持自动化网络隔离和配置,实现单实例1.6T带宽计算网络高性能接入,大幅提升GPU利用率并降低通信时延,为大模型训练跨节点通信提供强力支撑。

在高可用保障上,通过一体机智能调度和分布式存储机制,为GPU计算实例、云业务网络及存储的可用性和可靠性提供保障,云化业务网络与模型计算网络自适应通信;并通过实时的全栈监控和一键巡检监控大模型业务系统,实现性能实时监控故障告警,保障大规模业务部署和运行效率。

5. 大模型信创一体机 自主可控安全可靠 

UCloud私有化大模型一体机,支持“一云多芯”,兼容x86和国产化信创服务器,从芯片到应用全面适配信创体系,可支持x86、ARM及GPU等异构算力统一管理和调度,保证大模型和信息数据安全,满足金融、政府、运营商及更多传统企业的国产化需求。平台还对信创生态的CPU、服务器及操作系统进行全面适配,形成信创一体机交付模式,使大模型可以和国产CPU相兼容并进行统一调度管理。

在GPU计算方面,平台通过GPU直通模式将GPU资源池化,使国产GPU和AI加速卡无缝透传给算力虚拟机实例,使得一键部署的大模型算力环境可兼容所有GPU和AI加速卡,搭配高性能存储有效提升计算处理效率,为上层大模型的训练和推理应用提供全信创体系的云化基础设施。

此外,大模型一体机基于UCloud公有云,历经10年大规模磨炼和验证,保证平台底层的稳定性;平台代码自研率达96%以上,为业界领先水平,自主可控、安全可靠。

6. 全面多维度的安全保障体系

一体机私有云平台提供全面的安全保障体系,从网络、账号、资源、审计、监控等多维度保障平台大模型和数据安全,并可结合信息安全等级保护三级保证业务的安全性。

  • 一体机通过安全隔离VPC网络保障大模型业务的网络隔离性,VPC内默认内网不通,租户内和租户间不同VPC网络默认不通,同时结合安全组提供计算存储等服务东西和南北向流量安全访问控制。
  • 通过多租户隔离,提供资源隔离和精细化权限控制,不同租户之间资源完全隔离,互不影响。在物理资源层面,支持对大模型运行的计算存储物理资源进行权限控制,用于将部分物理资源独享给一个或部分用户使用,从物理层面保证资源隔离和安全性。
  • 在数据存储方面,提供存储加密及在线芯片加密特性,保护大模型和数据不被未经授权的访问者获取,甚至在磁盘丢失或被盗的情况下也可保证数据的机密性,实现私有化大模型在企业内部的安全性。
  • 此外,一体机私有云平台拥有全面的日志审计和事件管理能力,具备安全分析、资源变更追踪及合规性审计的功能。通过统一监控告警服务,实现大模型一体机全线产品的运维监控及告警服务,全方位保障业务的可靠性和安全性。
7. 开箱即用的私有MaaS服务

UCloud基于私有化大模型一体机提供MaaS服务,从大模型训练推理的多样化场景出发,为客户推荐机型提供预装部分工具的镜像,支持各种开源大模型,可覆盖知识推理、问答、图文生成、中文语义及绘画设计等AI应用领域,为用户快速搭建大模型的微调或推理环境。

值得一提的是,UCloud一体机私有云平台还具备业务无感故障自愈的特性,算力资源将优先选择低负荷节点进行虚拟资源部署,并提供打散部署、在线迁移、离线迁移及宕机迁移等能力,整体保证客户私有MaaS服务的可靠性和可用性。

另一方面,UCloud大模型一体可提供负载均衡、数据库及缓存服务,为大模型应用的计算调度、管理服务、API接口及AI应用提供接入负载均衡的能力,保证应用服务的高可用和负载分发;同时为模型服务应用提供可自动化运维的MySQL及Redis服务,让用户专注业务创新。

AIGC绘画大模型,私有化实践应用

AIGC绘画服务PICPIK.AI是UCloud私有化一体机的实践应用。PICPIK.AI提供了一种全新的方式,允许用户利用“AI绘画垂直模型”的能力进行AI艺术创作,提供AI WEB端和PhotoShop插件,赋予设计师无与伦比的创造力和精确性,创作出令人惊艳的视觉杰作。

UCloud大模型一体机打包了GPU服务器、磁盘及通用网络设备,为AI绘画大模型提供IaaS层虚拟化、GPU虚拟机、服务镜像、块存储及安全隔离网络,可快速部署并运行资源调度、进行作业任务管理、AI绘画计算服务、AI绘画管理及接口服务。通过负载均衡服务实现管理服务接口高可用、负载分发,保证绘画业务的可用性。

AIGC绘画服务私有化架构

平台还提供对象存储和文件存储服务,为AI绘画大模型提供统一存储平台,兼容标准S3和NFS接口,可与传统应用和新型应用无缝对接。同时可将AI绘画模型和业务服务生成的图片进行数据存储,并提供统一入口实现WEB服务,可在PhotoShop直接进行图片下载。

在网络部署和隔离方面,可通过一体机提供的VPC隔离网络结合安全组进行部署和规划,从而保证网络访问隔离性和安全性。

AI绘画大模型在私有云平台的网络部署模式

  • UCloud大模型一体机均部署至客户托管或自建的数据中心,内置私有云平台,管理权限交付至模型提供方。
  • 通过云平台虚拟机服务,将绘画GPU算力服务、模型对象存储服务、管理调度服务均部署于独立VPC隔离网络内的不同子网。
  • 算力、存储及管理调度服务实例均在VPC内网通信,并通过内网安全组进行网络访问控制和隔离。
  • 管理调度服务中算法API服务对外通过弹性外网IP对客户网络开放算法服务API。
  • 外网IP网络和客户内网在同一个网络面,AI绘画WEB客户端和PS插件可直接通过网络访问API服务,并可通过外网安全组进行网络访问控制和隔离。
  • AI绘画计算服务推理出的图片,通过VPC网络将图片存储于对象存储或文件存储中,客户端可直接通过平台提供的外网IP下载对象存储中的图片。

云计算是通过云端提供海量算力和安全保障,而私有云是将算力和安全保障私有化交付到客户的数据中心,并提供资源智能调度、业务高可靠高可用等机制,结合全面统一的云管理服务,为大模型业务私有化降本增效。

作为中立安全的云计算厂商,UCloud也成为了大模型入口处的铺路人。本次推出的UCloud私有化大模型一体机,可同时为多种垂直大模型业务提供业务云化部署和资源调度服务,并可结合UCloudStor统一分布式存储和USDP智能大数据平台为大模型推理和预训练业务,提供数据湖存储及流批一体数仓构建解决方案,提高大模型业务私有化的交付及运维管理效率。

未来,UCloud将全面拥抱大模型,通过自建数据中心、算力资源和工程服务能力,结合超10年云计算技术沉淀,为更多客户及大模型公司提供算力及基础设施服务,赋能千行百业。

为您推荐