RAG 2.0 是什麼?
近年來,隨著人工智慧技術的快速發展,生成式 AI 在各個領域得到了廣泛應用。然而,傳統的語言模型在處理知識密集型任務時,常常受到其訓練數據的限制。為了解決這個問題,Facebook AI Research 在 2020 年提出了 Retrieval-Augmented Generation (RAG) 的概念,通過允許語言模型訪問外部數據源,來提升其在知識密集型任務上的表現。
RAG 的局限性
傳統的 RAG 系統通常採用拼湊的方式,將預訓練的詞嵌入模型、向量數據庫和語言模型等不同組件組合在一起。這種方法雖然在一定程度上提高了語言模型的表現,但仍然存在一些局限性:- 系統脆弱:由於各個組件是獨立訓練的,它們之間缺乏協調,導致系統容易受到干擾和出錯。
- 缺乏針對性:預訓練的模型無法針對特定領域進行優化,影響了系統在實際應用中的表現。
- 需要大量調試:為了讓各個組件協調工作,需要進行大量的提示工程和調試,增加了開發和維護成本。
- 錯誤累積:由於組件之間缺乏有效的反饋機制,錯誤會在系統中不斷累積,影響最終結果的質量。
RAG 2.0 的創新
為了克服傳統 RAG 系統的局限性,Contextual AI 提出了 RAG 2.0 的方法。RAG 2.0 的核心思想是將語言模型和檢索器作為一個整體進行端到端的優化,而不是將它們視為獨立的組件。這種方法帶來了以下優勢:- 端到端優化:通過對語言模型和檢索器進行聯合訓練,RAG 2.0 可以最大限度地提高系統的整體性能。
- 針對性強:RAG 2.0 可以針對特定領域和任務進行微調,使其在實際應用中表現出色。
- 減少調試:由於系統是整體優化的,減少了手動調試和提示工程的需求,提高了開發效率。
- 錯誤傳播少:端到端的優化使得錯誤可以在系統內部得到有效控制和傳播,提高了結果的可靠性。
Contextual Language Models (CLMs) 的表現
基於 RAG 2.0 方法,Contextual AI 開發了 Contextual Language Models (CLMs)。在各種基準測試中,CLMs 的表現優於使用 GPT-4 和頂級開源模型構建的 RAG 基線系統。這些基準測試包括:- 開放域問答:CLMs 在 Natural Questions (NQ)、TriviaQA 和 HotpotQA (HPQA) 數據集上的表現優於基線系統,表明其在檢索相關知識和生成準確答案方面的能力。
- 忠實度:在 HaluEvalQA 和 TruthfulQA 數據集上,CLMs 展示了更好的證據溯源能力和更少的幻覺生成現象。
- 知識更新:面對快速變化的世界知識,CLMs 展現出了良好的泛化能力,在 FreshQA 基準測試中取得了優異的成績。