
資源池管理
通過多種異構(gòu)算力資源的統(tǒng)一調(diào)度和管理、RDMA網(wǎng)絡監(jiān)控、GPU資源監(jiān)控及多租戶隊列的資源分配調(diào)度與任務調(diào)度,實現(xiàn)算力網(wǎng)絡全棧智能管理

在線/遠程開發(fā)
提供云端集成開發(fā)環(huán)境并支持Jupyter Notebook與VSCode兩種開發(fā)模式,支持VPC內(nèi)網(wǎng)或公網(wǎng)方式進行SSH遠程連接開發(fā)環(huán)境

自定義鏡像構(gòu)建
使用平臺預置或自定義鏡像進行模型開發(fā)與鏡像構(gòu)建,支持開發(fā)機環(huán)境備份與恢復

RDMA網(wǎng)絡拓撲感知調(diào)度
基于GPU和RDMA網(wǎng)絡拓撲信息優(yōu)化任務調(diào)度,將同一分布式訓練任務的多個pod調(diào)度到拓撲距離最近的節(jié)點和網(wǎng)卡上,降低跨節(jié)點通信延遲

GPU故障感知與自愈
開啟自愈組件和任務維度自愈配置后,在檢測到GPU資源異常時進行任務重調(diào)度,有效減少因GPU故障帶來的任務中斷,提升GPU有效訓練時長

分布式訓練
支持大規(guī)模多機多卡分布式訓練,兼容Megatron、DeepSpeed、PyTorch、TensorFlow等主流訓練框架,并提供任務可觀測能力,結(jié)合監(jiān)控面板、日志服務及Tensorboard實現(xiàn)訓練任務分析

模型在線服務
支持使用內(nèi)置大模型或自定義鏡像部署模型在線服務,提供在線調(diào)試功能,并支持通過WebUI模式直接調(diào)用在線服務接口

資產(chǎn)管理
集成存儲配置、模型管理和鏡像管理三大模塊,支持對接高性能文件存儲/對象存儲并實現(xiàn)統(tǒng)一權(quán)限控制,提供團隊模型共享及在線服務關(guān)聯(lián)功能,同時支持KCR鏡像倉庫對接與自定義鏡像可見性管理