了解金山云最新資訊
2025-06-03 15:20:00
近日,金山云星流訓(xùn)推平臺正式發(fā)布。平臺旨在為用戶提供一站式訓(xùn)推任務(wù)管理平臺,保障訓(xùn)推任務(wù)穩(wěn)定高效運行,提升算力使用效率,能為機器學(xué)習(xí)場景開發(fā)者與運維人員提供云原生AI算力與全流程管理能力支持。
平臺由基礎(chǔ)資源管理、算力管理工具、訓(xùn)推任務(wù)管理、資產(chǎn)與權(quán)限管理等模塊構(gòu)成,包括任務(wù)編排調(diào)度、任務(wù)可觀測性等6大核心特性,適用于模型開發(fā)與訓(xùn)練、高并發(fā)模型在線服務(wù)等場景。
6大核心優(yōu)勢:
? 一站式全流程管理能力:提供從模型開發(fā)、訓(xùn)練到推理的完整生命周期管理,能打通基礎(chǔ)資源調(diào)度、算力優(yōu)化、任務(wù)編排、權(quán)限管控全鏈路,通過降低多模塊協(xié)同復(fù)雜度,實現(xiàn)“開箱即用”的AI開發(fā)體驗;
? 異構(gòu)資源高效調(diào)度:通過動態(tài)任務(wù)編排算法與算力管理工具,平臺能智能匹配異構(gòu)算力資源與任務(wù)需求,保障GPU資源利用率,顯著降低算力閑置成本;
? 高性能存儲與網(wǎng)絡(luò)加速:采用集成分布式存儲系統(tǒng)與高速RDMA網(wǎng)絡(luò)架構(gòu),可實現(xiàn)訓(xùn)練數(shù)據(jù)高速提取、模型參數(shù)高吞吐傳輸,支撐大規(guī)模分布式訓(xùn)練任務(wù)并行效率提升;
? 任務(wù)全生命周期可觀測:任務(wù)級可觀測能力覆蓋開發(fā)、訓(xùn)練、推理全流程,結(jié)合監(jiān)控、日志、事件信息及硬件維度監(jiān)控指標(biāo),快速定位異常點,縮短排障時間;
? 智能運維保障穩(wěn)定性:GPU故障自愈技術(shù)結(jié)合任務(wù)可觀測性設(shè)計,實時監(jiān)控硬件健康狀態(tài)與任務(wù)進程,自動觸發(fā)故障遷移與任務(wù)重調(diào)度,降低算力中斷風(fēng)險,保障長周期訓(xùn)練任務(wù)穩(wěn)定運行;
? 企業(yè)級安全管控體系:深度整合資產(chǎn)權(quán)限管理與訪問控制體系,提供細粒度角色權(quán)限控制、任務(wù)隔離及資產(chǎn)隔離功能,滿足多用戶權(quán)限控制場景的合規(guī)性要求。
2大應(yīng)用場景 :
? 模型開發(fā)與訓(xùn)練:通過KPFS高性能文件存儲、RDMA網(wǎng)絡(luò)拓撲調(diào)度和動態(tài)資源編排,解決海量數(shù)據(jù)數(shù)據(jù)加載、跨節(jié)點通信及異構(gòu)算力調(diào)度難題,保障分布式訓(xùn)練效率與連續(xù)性;
? 高并發(fā)模型在線服務(wù):基于預(yù)置/自定義模型跨機部署、多副本彈性擴縮容與冗余設(shè)計,突破單機算力瓶頸,實現(xiàn)高并發(fā)低延遲響應(yīng)與高可用服務(wù)保障。