【聯邦學習101】聯邦學習的應用與挑戰
上一篇【聯邦學習101】文章中,我們發現到聯邦學習正在突破我們對機器學習的想像,透過介紹並拆解其概念,能夠更瞭解到聯邦學習可以保障用戶的隱私安全和其他連帶的好處。這次,讓我們來看在現實生活中聯邦學習會被應用到哪些領域,以及這項技術所隱藏的挑戰。
聯邦學習潛在應用與案例
聯邦學習提供了各種潛在的用途,特別是在隱私問題和改進算法中尋求平衡。目前,最突出的項目是在智慧型手機上,但同樣的技術也可以應用於其他領域,如醫療、金融、物聯網等。
-
智慧型手機
聯邦學習第一次大規模部署是Google的鍵盤應用程式—Gboard,公司希望在不損害用戶隱私的情況下使用這項技術來改善選詞建議。以傳統ML的方法去開發更準確的鍵盤預測是極具侵入性的,Google不得不把用戶輸入的所有東西、所有私人訊息發送到一個中央服務器進行分析,誰知道那些個人資料是否會再被利用。
所幸Google選擇了聯邦學習,算法模型是在個別用戶的設備上進行運算,這樣一來就可以從輸入的詞語中學習,總結出重要的訊息,並將其送回中央服務器,以便用來提高Gboard的文字預測功能,這使用戶能夠在不被侵犯隱私的情況下不斷改進其鍵盤建議。
-
智慧醫療
在醫療領域,病人的資料隱私是極為重要的,醫院、政府等組織保管了大量既敏感又有價值的數據,這些資料對於詐欺等犯罪行為極為有用,因此,大多數國家對醫療數據的處理都有嚴格的立法,無法被隨意存取,而聯邦學習這種技術的實現價值便是在此,患者的影像照片、病歷等可以被用於訓練模型,而不必傳輸到其他單位,這在改善AI疾病診斷的同時,也保障了患者的隱私權。
案例一:AI Labs
臺灣人工智慧實驗室(AI Labs)不僅打造全球第一套腦瘤臨床判讀AI系統,更在2020年為應對Covid-19,與臺大醫院合作建立了一個胸腔X光判讀系統,先對X光片進行判斷是否為肺炎,再確定是否為新冠病毒。隨著疫情爆發後,疾管署、健保署也加入,AI Labs便利用自家醫療影像平臺TAIMedimg的聯邦學習架構,先以臺大醫院的醫療影像訓練一套模型,再用健保署的來強化模型表現,20秒就能判斷出確診的風險。其創辦人表示,「如果臺灣要選一項AI研究,能在全世界跑得快,醫療就是自然而然的題目。」
案例二:台大、健保署、NVIDIA
台大團隊、健保署、NVIDIA以及世界各地的醫院一起建構數據庫、調整並執行聯邦學習算法,為Covid-19患者開發一個呼吸需求的預測模型,病人氧氣需求程度被準確預測以便醫護人員能夠有效率地進行安置,進而使醫療資源在不足的情況下,也能合適的分配給不同患者。此卓越的全球大規模聯邦學習成果不僅在國際頂尖期刊NATURE MEDICINE上發表,也被發表在今年的 GPU 開發者大會(GTC)中,可謂國內產官學研醫共同參與跨國大型AI應用於醫療研究的成功典範。
案例三:歐盟
作為歐盟創新藥物倡議(IMI2)的一部分,MELLODDY用於建立一個保護隱私和聯邦學習的安全平台。目前已有十家制藥公司為全球模型提供了訓練數據,並評估了全球模型是否比獨立創建的模型表現更好,然而,研究發現單打獨鬥不僅沒有效果,而且是極為危險的。聯邦學習確保了商業敏感資訊的保密性,因此在合作的過程中,沒有人吃虧。越來越強大的機器學習方法正在利用越來越多的數據和洞察力,更好地加速世界的實驗和研究,為患者帶來拯救生命的藥物。
-
智慧金融
銀行和金融機構正在尋求透過AI技術,以保障行業的穩定性、減少風險,並防止金融犯罪。客戶的特徵通常包括購買能力、偏好和產品等資訊,不管是在銀行、電商平台或個人社交平台中都可以找到,但由於隱私和安全問題,將三方的數據匯總並不可行。聯邦學習為建構跨企業、跨平台及跨領域的系統提供了堅實的技術支持,全球合作使用的詐欺偵測系統同時與多家金融機構共享詐騙資訊,以期在未來十年避免信用卡詐騙而造成的損失。
案例:TigerGraph
為了打擊信用卡詐騙犯罪,TigerGraph作為圖形分析平台利用該公司的數據分析工具和HPE聯邦學習技術,及時準確地判別出異常的交易情況。為了訓練機器學習模型,使其更加準確,該系統使用了來自世界各地銀行和機構的大量金融數據。
-
智慧製造
為了避免因設備故障而造成的意外停機,可以利用預測性維護來提前確定維修需求。來自多個工廠的傳感器數據可以訓練出更精確的模型,以提高維修人員發現問題的準確性,但也不會因此而洩露工廠機密。
-
自駕車
許多人不喜歡旅行記錄和其他駕駛訊息被上傳到中央服務器進行分析的作法,而聯邦學習可以保護用戶的隱私,只需用這些數據的摘要,而不是所有的用戶資料。聯邦學習還可以比傳統ML或基於雲的自動駕駛系統做出更迅速和靈敏的反應,減少發生危險的可能性,使未來自動駕駛汽車的行動更快、更準確,減少事故並提高安全性。
-
智慧城市
各個部門都會產生大量的異構數據,進而各自成為數據孤島(Data Silos)。聯邦學習可以從中協助整合與使用,智慧城市、物聯網和5G的概念便不僅僅只是一個空想。
聯邦學習方法的挑戰
-
你的隱私得到了多少保障?
現在你已經知道,聯邦學習向雲端上傳的不會是原始數據,而是梯度(gradient)和權重(weight)等。然而,這些資訊仍是從原始數據衍生出來的,已經有一些研究證明,梯度或權重可以用來推斷用戶的信息,所以我們發現到,聯邦學習在隱私方面其實不完全安全可行。
-
如何在公平與隱私兩者間取得平衡?
聯邦學習中一直存在著要解決不平衡問題的挑戰,大多數訓練出來的模型都有一些不能排除的偏差,因此,平衡隱私和數據是技術上的難題之一。
-
抵抗攻擊的困難
在魯棒性(robustness)和攻擊(attack)中,可以透過傳送惡意的梯度或資料使模型壞掉,而這在聯邦學習中更難以處理,因為我們無法得知到底是用戶資料本身就較為獨特,也不知道是否有人惡意地攻擊模型。
-
缺乏信任和激勵機制
如果沒有適當的激勵機制,很難吸引用戶參與,便無法收集足夠多的訓練數據來保證最終模型的質量。另外,若不對所有客戶進行統一的分數評估,則會影響具有價值的客戶選擇,進而可能促使最終模型的準確度降低。為了解決這些問題,可以藉由區塊鏈的分布式分類帳技術(安全可靠、不可篡改和支持查詢驗證,被應用於解決不同的資料安全和信任問題),確保模型更新以安全及可審計的方式記錄下來。此外,區塊鏈的激勵機制是對客戶參與模型建構時的貢獻給予對應的獎勵。
聯邦學習是一個相對較新的訓練模式,在各種應用中都顯示出其潛力。由於它仍然處於相對早期的階段,在決定所有可能的用途之前,聯邦學習不太可能在所有場景中取代傳統的學習模式,這個過程需要更多的調查,而且還面臨著潛在的安全和隱私風險。然而,在現今的大數據時代,聯邦學習已經為這個行業奠定了堅實的基礎,透過此技術在數據安全、隱私計算、機器學習等方面的優勢,幫助企業提升Big Data及AI的安全應用能力。