AI-Stack人工智慧實驗平台 提升AI教學與實驗效率
產業需求人工智慧人才,然而面向眾多學生的人工智慧實驗卻難以開展,各級學校無不開始採購AI設備與軟體教材,希望促進人才培養,滿足現下的人才荒。對此,數位無限AI-Stack人工智慧實驗平台提供了基於Docker容器集群技術開發的多人在線實驗環境。平台基於深度學習計算集群,支持主流深度學習框架,方便快速部署訓練環境,同時支持多人在線實驗,解決人工智慧實驗配置難度大、實驗入門難、缺乏實驗數據等難題,可用於深度學習模型訓練等教學、實戰應用。
平台特色
1.在線實驗應用
- 一分鐘部署深度學習計算環境,快速啟動訓練任務
- 支持多個人工智慧實驗在線訓練
- 動態分配GPU資源,實現資源的合理共享
- 支援多容器共享GPU機制,讓多名使用者、多個容器可共用同一片GPU進行操作開發
- 即時監控與掌握CPU/GPU資源使用情況及運行狀態
- 提供NGC深度學習框架下載服務
2.實驗高效可靠
- 基於Docker容器技術,可瞬間創建隨時運行的實驗環境
- 使用幾台機器即可虛擬出大量實驗集群,並配套GPU,滿足實驗室規模使用需求
- 採用Kubernetes容器編排架構管理集群,用戶實驗集群隔離、互不干擾
- 容器建立後平台提供使用者 Jupyter Notebook 程式編輯工具進行開發
- 租戶管理者可批次建立容器,使用同一個容器樣板一次為多位相同租戶使用者建立容器
- 提供 Batch Job 排程工具,使用者可設定執行時間,平台於排程期間將定時執行重複性訓練任務
- 提供 share memory 動態調整功能,使用者建立 GPU 資源時可自行輸入共享記憶體大小(上限 70% )
3.軟硬體高規格
- 硬體採用GPU+CPU混合架構,實現對數據的高性能並行處理
- CPU選用2顆AMD EPYC™ 7502 32C/64T 2.5GHz 中央處理器,搭配NVIDIA A6000 GPU卡
- 內建NVIDIA優化之常用TensorFlow、PyTorch之AI框架,並具備AI框架擴充設計
- 可介接外部存儲設備,可透過NFS介接標準NAS
- 可介接LDAP/AD、OpenID、OAuth等用戶身份登入認證機制
- 提供歷史 GPU 使用率與使用時數查詢功能,協助管理者清查容器使用狀態,提高 GPU 使用效率
平台框架
數位無限AI-Stack人工智慧實驗平台整體設計基於Docker容器集群技術,可快速創建隨時運行的實驗環境。
- Kubernetes是Google開源的容器集群管理系統,提供應用部署、維護、擴展機制等功能,利用Kubernetes能方便地管理跨機器運行容器化的應用。
- 實驗時,系統預先針對人工智慧實驗內容構建好一系列基於Ubuntu的特定容器鏡像,通過Docker在集群主機內構建容器,為每個使用平台的用戶開闢隔離的實驗環境。
AI-Stack人工智慧實驗平台可有效協助提升AI教學與實驗效率,經過多所學校的採用,包含政治大學、成功大學、交通大學、台北科技大學、雲林科技大學、義守大學等知名學校的實際案例,證實AI-Stack人工智慧實驗平台讓AI計算資源使用透明化,透過簡單的操作介面、流程管理、專案管理、報表分析,滿足多方的管理決策者、IT管理者與資源使用者的需求,讓AI實驗得以落地,創造更有價值的影響。