面向政府、金融、教育、制造、基金等行业客户及大模型企业的大模型私有化交付场景,优刻得推出国内第一款私有化大模型一体机,内置优刻得自主研发的全栈私有云平台,结合行业垂直大模型一体化交付给客户,用户可在企业内部一键部署大模型应用,安全便捷的提供AI训练和推理等服务。
为实现大模型私有化交付,优刻得大模型一体机,基于一云多芯且自主可控的UCloudStack全栈私有云平台,提供虚拟化、存储、网络及MaaS模型的私有化一体交付方案,支持Alpaca-LoRA、ChatGLM、T5、MiniGPT-4、Stable Diffusion、LLaMA2及Milvus向量数据库等开源模型的部署及算力调度,用户可在本地或自有数据中心内,轻松部署针对特定场景的大模型服务。
UCloud AIGC私有化方案架构
推理区主要以通用GPU卡一体机进行建设,如T4/V100/V100S/A800,结合私有云的智能调度、弹性伸缩及资源编排进行推理业务覆盖。同时基于运行环境一键打包和算力调度技术,实现训练推理无缝切换和自助管理,并通过全面多维度安全保障体系,保障大模型和数据的安全。
集成通用AI和大模型的GPU标准镜像和模板,快速打包算力基础运行环境并实现一键部署,支持运行环境模板的一键拉起,结合调度管理和分布式存储系统,使得GPU算力环境,通过标准S3或NFS协议从存储系统中拉取并加载大模型到内存中,进行预训练或推理计算任务。
同时,在计算资源调度层面提供K8S容器调度服务,无缝对接云原生架构的资源调度和作业任务管理系统,用于模型切换、训练任务、推理任务的作业管理。基于运行环境一键打包和算力调度技术,使得一体机既可作为训练的算力运行环境,又可在训练结束后,无缝切换至推理业务部署模式,确保基础设施成本可控且安全。
UCloud大模型训练存储架构设计
大模型一体机训练集群底层依赖UCloudStor分布式对象存储,用于存储最终的数据。同时每个GPU算力实例上放置本地缓存,包括元数据和数据缓存。热数据和元数据存储在GPU计算实例挂载的高性能SSD/NVME云盘内,冷数据使用分布式存储的对象存储。
在大模型训练数据访问时,每个GPU计算实例均有多级缓存,第一级是基于内存的缓存,第二级是基于实例内SSD/NVME云盘,只有实例云盘缓存没有命中时,才会访问第三级对象存储。热数据缓存在GPU实例缓存磁盘上,通过预取可最大化发挥算力性能,达到加速数据I/O的效果。
UCloud大模型训练高性能计算网络
大模型一体机可分别搭配8张GPU卡和200G RDMA网卡,平台采用直通模式将GPU和网卡直接透传给GPU计算实例,结合高性能RDMA RoCE无损物理网络架构,支持自动化网络隔离和配置,实现单实例1.6T带宽计算网络高性能接入,大幅提升GPU利用率并降低通信时延,为大模型训练跨节点通信提供强力支撑。
在高可用保障上,通过一体机智能调度和分布式存储机制,为GPU计算实例、云业务网络及存储的可用性和可靠性提供保障,云化业务网络与模型计算网络自适应通信;并通过实时的全栈监控和一键巡检监控大模型业务系统,实现性能实时监控故障告警,保障大规模业务部署和运行效率。
在GPU计算方面,平台通过GPU直通模式将GPU资源池化,使国产GPU和AI加速卡无缝透传给算力虚拟机实例,使得一键部署的大模型算力环境可兼容所有GPU和AI加速卡,搭配高性能存储有效提升计算处理效率,为上层大模型的训练和推理应用提供全信创体系的云化基础设施。
此外,大模型一体机基于UCloud公有云,历经10年大规模磨炼和验证,保证平台底层的稳定性;平台代码自研率达96%以上,为业界领先水平,自主可控、安全可靠。
- 一体机通过安全隔离VPC网络保障大模型业务的网络隔离性,VPC内默认内网不通,租户内和租户间不同VPC网络默认不通,同时结合安全组提供计算存储等服务东西和南北向流量安全访问控制。
- 通过多租户隔离,提供资源隔离和精细化权限控制,不同租户之间资源完全隔离,互不影响。在物理资源层面,支持对大模型运行的计算存储物理资源进行权限控制,用于将部分物理资源独享给一个或部分用户使用,从物理层面保证资源隔离和安全性。
- 在数据存储方面,提供存储加密及在线芯片加密特性,保护大模型和数据不被未经授权的访问者获取,甚至在磁盘丢失或被盗的情况下也可保证数据的机密性,实现私有化大模型在企业内部的安全性。
- 此外,一体机私有云平台拥有全面的日志审计和事件管理能力,具备安全分析、资源变更追踪及合规性审计的功能。通过统一监控告警服务,实现大模型一体机全线产品的运维监控及告警服务,全方位保障业务的可靠性和安全性。
值得一提的是,UCloud一体机私有云平台还具备业务无感故障自愈的特性,算力资源将优先选择低负荷节点进行虚拟资源部署,并提供打散部署、在线迁移、离线迁移及宕机迁移等能力,整体保证客户私有MaaS服务的可靠性和可用性。
另一方面,UCloud大模型一体可提供负载均衡、数据库及缓存服务,为大模型应用的计算调度、管理服务、API接口及AI应用提供接入负载均衡的能力,保证应用服务的高可用和负载分发;同时为模型服务应用提供可自动化运维的MySQL及Redis服务,让用户专注业务创新。
AIGC绘画服务私有化架构
平台还提供对象存储和文件存储服务,为AI绘画大模型提供统一存储平台,兼容标准S3和NFS接口,可与传统应用和新型应用无缝对接。同时可将AI绘画模型和业务服务生成的图片进行数据存储,并提供统一入口实现WEB服务,可在PhotoShop直接进行图片下载。
在网络部署和隔离方面,可通过一体机提供的VPC隔离网络结合安全组进行部署和规划,从而保证网络访问隔离性和安全性。
AI绘画大模型在私有云平台的网络部署模式
- UCloud大模型一体机均部署至客户托管或自建的数据中心,内置私有云平台,管理权限交付至模型提供方。
- 通过云平台虚拟机服务,将绘画GPU算力服务、模型对象存储服务、管理调度服务均部署于独立VPC隔离网络内的不同子网。
- 算力、存储及管理调度服务实例均在VPC内网通信,并通过内网安全组进行网络访问控制和隔离。
- 管理调度服务中算法API服务对外通过弹性外网IP对客户网络开放算法服务API。
- 外网IP网络和客户内网在同一个网络面,AI绘画WEB客户端和PS插件可直接通过网络访问API服务,并可通过外网安全组进行网络访问控制和隔离。
- AI绘画计算服务推理出的图片,通过VPC网络将图片存储于对象存储或文件存储中,客户端可直接通过平台提供的外网IP下载对象存储中的图片。
云计算是通过云端提供海量算力和安全保障,而私有云是将算力和安全保障私有化交付到客户的数据中心,并提供资源智能调度、业务高可靠高可用等机制,结合全面统一的云管理服务,为大模型业务私有化降本增效。
作为中立安全的云计算厂商,UCloud也成为了大模型入口处的铺路人。本次推出的UCloud私有化大模型一体机,可同时为多种垂直大模型业务提供业务云化部署和资源调度服务,并可结合UCloudStor统一分布式存储和USDP智能大数据平台为大模型推理和预训练业务,提供数据湖存储及流批一体数仓构建解决方案,提高大模型业务私有化的交付及运维管理效率。
未来,UCloud将全面拥抱大模型,通过自建数据中心、算力资源和工程服务能力,结合超10年云计算技术沉淀,为更多客户及大模型公司提供算力及基础设施服务,赋能千行百业。