義守大學借助 AI-Stack 管理 GPU 共用資源,加速推動 AI 醫學創新研究
義守大學資訊工程學系教授兼系主任及所長陳啟彰
在 31 年前,義联集團創辦人林義守秉持為國家培育高級專業人才的理念,成立「高雄工學院」,爾後於 1997 年改制為「義守大學」(以下簡稱『義大』),至今設立 9 學院、43 個學系,是全臺灣少數擁有醫學系的綜合大學,具備健康醫學的發展優勢。
臺灣少子化、高齡化趨勢顯著,導致醫療照護需求急遽攀升,使醫療與人工智慧(AI)結合的迫切性日益增高。為此,義大將「跨域創新」列為辦學發展主軸,鼓勵「健康醫學x智慧科技」跨學科創新研發。
因此義大在去年(2020)新成立「智慧科技學院」,且繼「健康醫學密碼」後,再增設「智慧科技密碼」通識課程,十足展現推動跨域研發的決心。此外資訊工程系積極協助校方設立「AI 高效能運算實驗室」,佈建 NVIDIA 最新一代 AI 超級電腦系統 DGX A100,也一併引進數位無限軟體的 AI-Stack 機器學習/深度學習協作管理平台,讓珍貴的 AI 運算資源,公平合理分配給參與學術/產學研究專案的老師、博士生,及義大醫院或義大癌治療醫院的醫生。
遴選 AI 平台,首重入口網站、資源分配、計價三大功能
義守大學資訊工程學系教授兼系主任及所長陳啟彰說,去年上半年校方決定興建「AI 高效能運算實驗室」,除規劃購置 AI 超級電腦系統外,副校長沈季燕也主張務必建立統一入口網站暨管理系統,直言若缺乏此機制,恐難以實現資源的共享和計價,影響資源利用的有效性。
因此資工系在啟動專案時,便將超級電腦、AI 協作管理平台同時列入採購範圍。其中超級電腦部份,將目標鎖定於 DGX A100;至於 AI 平台,則歡迎各廠商擇優提案,但要求必須兼具入口網站、資源分配、計價等基本功能。
陳啟彰解釋,之所以鎖定 DGX A100,除看重它搭載最先進的 NVIDIA A100 GPU 外,亦看重其中的「MIG」(Multi-instance GPU)新功能,可將每張 GPU 分割成 7 個獨立執行個體、支援更多工作負載;如此一來,憑藉 DGX A100 單一基礎架構,即可同時滿足訓練、推論和分析需求,使義大無需額外斥資部署推論主機。
義大為驗證 DGX A100 的能耐,以「乳癌切片影像判斷」為測試題目,證實動用一顆 A100 GPU 之下,僅需 4 分鐘便完成模型訓練,相較過去透過 CPU 歷時逾 4 小時的訓練過程,速度提升 54 倍之多。此例一出,更強化資工系選購 DGX A100 的意向,也讓老師或醫生備感驚艷,體認到與其各自建置較低規格的資源、曠日費時完成研究案,不如善用校方 AI 實驗室的資源,以提升研究速度與品質。
在參與提案的廠商中,敦陽科技將 DGX A100、數位無限軟體 AI-Stack 平台同列為提案重點。經過資工系老師深入檢視,發現 AI-Stack 的入口網站、資源分配、計價三項功能皆堪稱齊全,反觀其他平台,普遍在計價功能上未盡到位,使得敦陽科技的提案雀屏中選,於去年底完成專案建置。
透過網頁操作,快速展開模型訓練
陳啟彰回顧,建置過程當中較大的挑戰在於容器鏡像;因部份系所要求安裝的鏡像帶有較複雜的參數,需要被設定在 AI-Stack中,算是不甚輕鬆的工作。所幸原廠數位無限軟體發揮優異的技術力與執行力,協助義大順利克服這項挑戰。
舉例來說,經常用於醫學影像處理的 MATLAB 鏡像,帶有認證授權機制,假使 AI-Stack 未做對應的參數調整,意謂使用者每次啟動 MATLAB 時,皆須通過帳密驗證,導致使用體驗不佳。後來數位無限軟體悉心將授權碼寫入 AI-Stack 平台程式,使帳密驗證程序能夠被 Bypass,方便使用者在登入 AI-Stack 後可以直接進入 MATLAB 環境執行訓練工作。
談及 AI-Stack 為義大帶來的效益,涵蓋諸多面向。首先義大 AI 實驗室將 AI-Stack 建置於 Ubuntu OS,資工系擔心有些老師只熟 Windows、不諳 Linux,恐形成使用障礙;幸而 AI-Stack 發揮絕佳的隔離效果,為使用者隔開複雜的 Linux 指令,只需透過 Web 介面按幾個按鈕,便能觸發操作指令、啟動指定的鏡像,加速進入訓練工作狀態。
其次,陳啟彰有感於 AI 運算資源有限、但校方期望做更多的學術/產學研究,認為未來可能出現排隊爭取資源的景況,所以務求分配機制公平合理,且須杜絕資源濫用現象,因而需要透過「金錢」、「時間」來控制資源使用效率;數位無限軟體藉由完整細緻的功能設計,妥善滿足這些期望。
針對金錢控制,AI-Stack 可支援義大規劃的「以小時為單位」計價模式,也能支援以月或年為單位的長期計價方案。至於時間控制,數位無限軟體則在申請機制中納入專案週期,要求使用者須於申請時設定資源運用的起迄日期,通過審核後方可成案;一來能避免有人長期霸佔資源,並驅使申請者爭取時效產出訓練成果,二來讓管理者預先掌握資源運用的時段分佈,必要時還可協調部份專案適度順延,化解塞車之虞。
另一方面,AI 實驗室為每位使用者配置 100GB 儲存空間,用以放存當下頻繁使用的資料或模型;為此數位無限軟體貼心設計告警功能,當空間瀕臨額度上限,AI-Stack 會自動發出告警,提醒使用者將次要的資料或模型下載到本地儲存空間,避免過度佔用資源。
總括而論,義大期望透過 AI-Stack 的協調分配,讓每一分 AI 運算資源都能被有效運用,以利老師或醫生如願執行更多的學術/產學研究案,產出更多的研究期刊論文,也協助學校、醫院甚或企業培育更多 AI 深度學習人才。