NVIDIA 語音人工智慧 Riva 2.0 又有哪些創新?
NVIDIA 在 2022 年的 GTC 宣佈推出 NVIDIA Riva SDK 2.0 版本,提供全球的開發人員將預先完成訓練的深度學習語音模型和軟體工具,輕鬆地放在各種情境,建立具互動性的對話式人工智慧 (AI) 服務。
NVIDIA Riva 能夠提供高精準度的自動語音辨識,對自然語言的理解能力也很高,還能對多種語言進行即時翻譯,以及全新的文字轉語音等功能,用來建立表達豐富內容的對話式 AI 應用程式。從聆聽、理解到產生回應內容的速度,多數都能夠在 100 毫秒內完成動作,並部署在雲端、資料中心或邊緣裝置,增加更多觸及。
NVIDIA 使用超過十億頁的文字、六萬小時的語音資料,並以不同的語言、口音、情境和專業術語,耗費數百萬 GPU 小時來訓練 NVIDIA Riva 框架。開發者現在就可以從 NVIDIA 的 NGC™ 目錄中挑選一個 Riva 已預先訓練好的模型,用自己的資料與 NVIDIA 遷移學習工具套件對這個模型進行微調和最佳化,好在新的即時語音服務中,提高資訊處理量,並降低延遲。
應用 Riva 對視訊會議進行即時翻譯
Riva 的廣泛應用
自 Riva 推出早期試用計畫以來,已經有數千家企業(例如 Mozilla 和 T-mobile)要求加入。早期試用者當中包括美國電信巨頭 T-Mobile,透過 AI 進一步推出能夠即時解決客戶問題的語音服務。
NVIDIA 也與 Mozilla Common Voice 合作,這是一個開源語音資料集,提供新創公司、研究人員及開發人員用於訓練語音類應用程式、服務和裝置。Common Voice 目前是全球規模最大的多語言、公領域的語音資料庫,收錄超過九千小時、60 種語言的語音資料。NVIDIA 使用 Riva 和該資料集來開發預先訓練好的模型,然後將它們免費提供給開源社群使用。
NVIDIA Riva 也能應用在醫療上,讓許多不方便動手輸入的患者,能跟醫療人員或是電腦溝通。舉例而言,它為開發數位護理師等服務打開了大門,協助他們全天不間斷地了解患者的情況,減輕讓醫務人員疲於奔命的工作負擔。
更大型的語言框架:NVIDIA NeMo Megatron
NVIDIA 的對話式 AI 工具下載量已經突破 4.5 萬次,支援主要的軟體函式資料庫,也搭配數百個相關合作夥伴的產品與技術,讓開發者都能夠簡單地開發對話式 AI 應用程式。另外,針對更大型的語言模型框架(LLM),NVIDIA 也開發了 NVIDIA NeMo Megatron ,有數億個參數可供調整,提供給研究機構和企業中的科學家與研究者,有更多自由度。
詳細內容與後續追蹤報導,請繼續關注:
Medium「InfinitiesSoft數位無限」