數位無限軟體 AI-Stack,1分鐘內急速產生 AI 開發環境
數位無限軟體總經理 陳文裕
隨著愈來愈多科研機構投入人工智慧(AI)研究,使 GPU 普及率節節攀升,只因 GPU 最能支撐 AI 訓練所需之龐大算力。但相較於 x86 架構,GPU 資源管理工具相對欠缺,以致資源分配與使用情況不透明,難免讓不少機構對投資效益漸感質疑,因而放緩資源擴充步調,長此以往不利於 AI 發展。
為此,擁有國網中心 TWGC(Taiwan GPU Cloud)專案歷練、深諳 GPU 資源分配技術的數位無限軟體,於前年(2018)推出 AI-Stack,標榜為多人共用的 AI 運算平台,擅長多 GPU 伺服器的算力調度協同管理,可協助科研機構旗下的研發、財務或採購管理者,都能隨時透過統計圖表,輕鬆掌握每一分 GPU 資源的配置狀況,有效提升利用率,順勢拉高專案產出績效。
「欲使 AI 落地、跨進門檻,必須有效運用資源」數位無限軟體總經理陳文裕說,AI-Stack 不但有助強化資源分配,讓內部單位的費用攤提有所依據,更重要的,也兼具「自動供裝」優勢,能在短短 1分鐘內搭建出研究人員想要的開發環境,讓寶貴的 GPU 資源儘快投產運作,為機構產生最大貢獻。
提高資源分配效率,建立費用攤提依據
專業的 GPU 單價不菲,科研機構為追求極致算力,通常為每台伺服器裝載大量 GPU卡,動輒 4 張、8張甚或 10 餘張,因而墊高投資成本;既然付出可觀代價,科研機構管理者自然期望「每一分每一秒都榨滿 GPU 算力」。
一旦導入 AI-Stack,管理者便清楚知道哪些部門動用多少 GPU 資源,分別支援哪些研究項目;在此前提下,各部門應負擔多少成本、為機構貢獻多少利益,通通一目瞭然。更特別的,AI-Stack 允許管理者針對不同 GPU 型態做分配(包含 Tesla、Quadro和GeForce),譬如可將 GeForce 配置給小型實驗專案,將 Tesla 分派予模型訓練用途,讓資源分配得更精準,以利真正提高 ROI。
另一方面,當研究人員投入每件專案,難免需要對研究環境多加摸索,嘗試套用不同演算法、建構不同實驗環境,若成果不如預期,再繼續打掉重練,又一次佈建 OS、GPU、Driver、容器,下載函式庫、相依套件與開發工具,每回起碼耗時半天到一天;試錯次數愈多,就愈慢進入開發期,拖長 GPU 資源的閒置時間。
反觀 AI-Stack,可幫助研究人員在極短時間內完成資源申裝,快則不到 1 分鐘、慢則 5
分鐘,便能備妥開發環境。陳文裕解釋,AI-Stack
提供友善的圖形介面,使用者僅需透過選單方式,便可在配額或權限範圍內,隨需選擇配置硬體等級、軟體堆疊(例如
Tensorflow、PyTorch、Caffe2 等等),甚至選擇開通 SSH 金鑰與帳密,對底層 SSH
Terminal 下指令、額外拉進一些函式庫或套件,且能帶入 Jupyter Notebook、Jupyter
Lab、TensorBoard
等常見開發工具;一切選定後、便靠著系統背景運作自動完成供裝。
降低 AI 學習門檻,加快專案執行進程
上述的自動供裝,可望營造多重效益。對開發者而言,不僅快速建立實驗環境,也享有環境的自主權,有助於省卻諸多繁雜事務,降低 AI 學習門檻,得以聚焦執行研發工作。
至於管理者,可拜自動供裝背後隱含的「硬體高度整合、軟體最佳搭配」利基,確保系統維持高可用度狀態,降低維運管理困擾,此外也不需再擔心開發人員要求協助執行一些複雜工作、如安裝 Tensorflow 等等,畢竟這些事務並非系統管理員所擅長。總之 AI-Stack 平台的到位,將使科研機構的不同人員雨露均霑、同蒙其利。
陳文裕指出,AI-Stack 支援計算、儲存等資源不斷橫向擴展,因此數位無限軟體積極與儲存設備商洽談合作,俾使 AI-Stack 讓 AI 計算所需資料順利落地至儲存設備、更令人驚艷的是,它還能將每個帳號對應的儲存空間、掛載到各自的開發環境,不管是原始資料、訓練後的模型,皆可緊密跟隨每位開發人員,不必再費心搬移或下載資料。
談及 AI-Stack 支援的儲存協定,可謂老(NFS)、中(S3)、青(CSI)三代兼具;雖說最理想狀態乃是採用 CSI,但未必每種儲存設備都支援此協定,因此 AI-Stack 還可串接第二順位的 S3、第三順位的NFS。而在代理商零壹科技協助下,數位無限軟體與運算領域的 NVIDIA、儲存領域的 NetApp,彼此的產品整合都驗證無虞。
「AI-Stack 不只支援訓練,也支持推論,因此需要整合更多標的,而不僅有計算或儲存」陳文裕說,進入推論場景,往往需要銜接大量邊緣節點,故網路串聯、資安防護都顯得十分重要;數位無限軟體仍多方尋求策略合作機會,期望集結更多盟友、展現更強能量,匯聚為完整 AI 應用生態系。
AI-Stack 問世迄今近兩年,已獲得許多大專院校如成大、北科大、雲科大、明志科大等以及半導體業者的青睞採用,著實意義重大。陳文裕強調,企業急欲解決的問題,通常很複雜,不太適用臉部辨識等通用方案;此時企業即需藉助產學合作、引入學校的科研能量,開發企業需要的智慧解決方案。在過程中,企業給予學校經費回饋,使學校能夠擴充計算資源與研發能量,一併幫助學生養成專業技能與經驗、找到職涯出路。最終校方提出研究成果,由企業透過技轉方式引入自家場域,加速落實數位轉型,前前後後串聯為強大的正向循環。