🌟 ARES：自動化檢索輔助生成系統評估框架 🌟

9 min readJul 10, 2024

📚 引言

在自然語言處理（NLP）領域和大型語言模型系統中，檢索輔助生成（RAG）系統已成為建立用戶應用程序的重要方法，如問答系統、事實查證和客戶支持。“RAG 系統通常由一個檢索器（Retriver) 和一個下游語言模型（LM, ex: gpt4, llama3, mistral, Gemini, Claude等等…）組成。當用戶提出問題時，檢索器從語料庫(corpus)中找到相關段落(Relevance segment)，而語言模型使用這些段落生成回應。隨著這些系統的廣泛應用，如何有效評估它們的性能變得至關重要。

🔍 So … ARES 是什麼？

ARES（Automated RAG Evaluation System）是一種新的自動化框架，用於評估 RAG 系統的三個維度：上下文相關性(Context Relevance)、答案的真實性(Answer Faithfulness)和答案的相關性(Answer Relevance)。與傳統需要大量人工標註的評估方法不同，ARES 通過創建自己的合成訓練數據，微調輕量級的語言模型評估每個 RAG 組件的質量。為了減少潛在的預測錯誤，ARES 利用一小部分人工標註的數據點進行預測驅動推理（PPI）。

🔍 解釋一下“上下文相關性”、“答案真實性”和“答案相關性”

📌 上下文相關性

上下文相關性指的是檢索到的內容是否專注於回答問題，並且包含盡可能少的不相關信息。這一點非常重要，因為過長的上下文會增加處理成本，並且可能降低語言模型在使用這些上下文信息時的效率。

📌 答案真實性

答案真實性是指生成的答案是否基於檢索到的上下文，避免產生虛假的或過度推斷的內容。在很多應用場景中，特別是需要高度一致性的領域，如法律，這一點尤為重要。

📌 答案相關性

答案相關性是指生成的答案是否直接回答了提出的問題。這裡評估的是答案的完整性和相關性，而不是其事實性。

🚀 ARES 的工作流程

ARES 的工作流程可分為三個階段：

生成合成數據集：使用生成式語言模型從語料庫段落中生成問題和答案對，並包括正例和反例。
微調評估模型：針對上下文相關性、答案真實性和答案相關性，分別微調三個輕量級評估模型。
評估 RAG 系統：使用微調的評估模型評分不同的 RAG 系統，並通過 PPI 提高評估準確性和提供統計置信區間。

📊 ARES 的優勢

提高評估精度：ARES 通過專門為每個 RAG 組件生成定製的語言模型評估器，相比現有的方法如 RAGAS 提升了評估的精度和準確性。
數據效率：ARES 只需要三個輸入：域內段落集、約150個標註數據點的人類偏好(他們在八個不同領域分別標上真正共有groundTruth的數據集150對）驗證集和少量域內問題和答案的案例。
跨領域有效性：ARES 評估器在領域轉換後仍保持有效，證明其在變換查詢類型和/或文檔類型後的準確性。

📈 實驗結果

在八個不同的知識密集型任務（如 KILT 和 SuperGLUE）中，ARES 展現出卓越的評估能力，平均比現有的 RAGAS 評估框架提高了59.3和14.4個百分點的上下文相關性和答案相關性評估準確率。此外，ARES 在評估 AIS 歸屬數據集中的答案幻覺發生率時，其預測與真實值相差不到2.5個百分點。

🛠️ ARES 的工作原理

ARES 的工作流程分為三個主要階段，所需的三個輸入是：域內段落集、約150個標註數據點的人類偏好驗證集，以及五個或更多的域內查詢和答案的少量示例，這些示例用於提示 LLM 生成合成數據。準備好輸入後，我們開始從目標語料庫的段落生成合成查詢及其答案（自動透過另外一個LLM來生成）。然後使用這些查詢（queries)-文檔段落(segmentic context)-答案(Answer) 三元組訓練 LLM 法管（或稱為評審員）。

隨後，我們就可以應用這些評審員到任何 RAG 系統，對其域內查詢-文檔-答案三元組進行評分，並使用 PPI 和我們的人類偏好驗證集來估算每個 RAG 系統質量的置信區間。

1. 生成合成數據集

我們使用生成式 LLM 從語料庫段落中生成合成查詢和答案。生成的數據代表查詢-段落-答案三元組的正反例（例如，相關/不相關的段落和正確/錯誤的答案）。生成過程中，LLM 使用我們的少量示例集，將域內段落映射到域內查詢和答案；模型然後從給定的域內段落生成合成問題和答案，使我們能夠創建正反兩種訓練示例。最後，我們使用 FLAN-T5 XXL 模型來生成這些數據。

2. 準備 LLM 評審員

使用我們的合成數據集微調 DeBERTa-v3-Large 評審員，以評估上下文相關性、答案真實性和答案相關性。每個度量標準分別使用二元分類器頭微調，對每個查詢-文檔-答案三元組進行分類，確定其在對應度量標準下的正負面性質。

3. 使用置信區間對 RAG 系統進行排名

使用 LLM 評審員對競爭的 RAG 系統進行評分和排名。為了提高評估的精確度，使用 PPI 方法來預測系統分數，這種方法結合了標註數據點和未標註數據點上的預測，從而構建出更嚴密的置信區間。

🔗 資源鏈接

ARES 的代碼和數據集已公開在 Github 上。

ARES：自動化檢索輔助生成系統評估框架

使用置信區間對 RAG 系統進行排名

ARES 使用準備好的 LLM 評審員對競爭的 RAG 系統進行評分和排名。ARES 對每個 RAG 方法生成的域內查詢-文檔-答案三元組進行抽樣，評審員對每個三元組進行標記，預測其上下文相關性、答案真實性和答案相關性。通過對每個域內三元組的個別預測標籤取平均值，計算出 RAG 系統在每個指標上的性能。

這些平均分數可作為每個 RAG 系統的質量指標，但它們反映了完全未標註的數據，並由合成訓練的 LLM 評審員進行預測，因此可能不完全準確。為了提高評估的精度，ARES 使用預測驅動推理（PPI）來預測系統分數。PPI 是一種統計方法，通過利用大量未標註數據點上的預測，對一小部分標註數據點提供更緊密的置信區間。PPI 可以利用標註數據點和 ARES 評審員對未標註數據點的預測來構建 RAG 系統性能的置信區間。

PPI 使用 LLM 評審員在人類偏好驗證集上學習一個修正函數，用於構建 ML 模型性能的置信集，使用更大未標註數據集中的每個 ML 預測。置信集可用於創建比僅使用評估 RAG 系統的標註輸出更緊密的置信區間。通過使用包含 ML 預測的更多數據點來支持人工偏好驗證集，PPI 可以開發可靠的 ML 模型性能置信區間，超越以往的經典推理方法。

PPI 修正函數使我們能夠估算 LLM 評審員的誤差，並生成 RAG 系統成功和失敗率的置信範圍，估算上下文相關性、答案真實性和答案相關性性能。此外，PPI 使我們能夠根據選定的概率水平估算置信區間；在我們的實驗中，我們使用標準的 95% 置信區間。

對於 RAG 的每個組件的精度置信區間，我們找到每個置信區間的中點，並使用這些中點對 RAG 系統進行排名。通過我們的排名，我們可以比較不同的 RAG 系統，以及同一 RAG 系統的不同配置，以找到針對給定領域的最佳方法。

4. 結果與分析

4.1 ARES 排名

在 KILT 和 SuperGLUE 的數據集中，ARES 提供了比 RAGAS 更準確的 RAG 系統排名。ARES 在上下文相關性和答案相關性的預測準確性上分別比 RAGAS 高 59.9 和 14.4 個百分點。總體而言，ARES 提供了一個更準確的系統來自動評估 RAG 配置，利用針對域的提示和訓練技術，以及使用 PPI 增強模型預測。

作為額外的比較，我們還包括了沒有 PPI 的 ARES LLM 評審員的 Kendall’s tau 值；對於測試的所有數據集，PPI 提高了微調 LLM 評審員的排名預測準確性。我們還包括了一個抽樣標註配置，其中我們從每個模擬 RAG 系統中抽取了 150 個數據點，總共 1,350 個標註。即使有這些標註，ARES 在上下文和答案相關性方面的 Kendall’s tau 平均仍比抽樣標註高出 0.08，儘管使用了 78% 少的標註。總之，ARES 在使用人工標註方面證明了其顯著的數據效率，同時在評分上比標準抽樣標註方法更準確。

4.2 ARES 在 AIS 數據集上的表現

為了評估 ARES 是否能有效衡量真實 RAG 系統的答案真實性，我們在 AIS 歸屬基準上測試了 ARES。實驗結果表明，ARES 在評估上下文相關性和答案相關性時，比其他方法提供了更準確的評分和排名。

4.3 ARES 對現有 RAG 系統的排名

我們還希望評估 ARES 能否對現有 RAG 系統在上下文相關性和答案相關性方面進行評分和排名。為了進行評估，我們選擇了 KILT 的 NQ、WoW 和 FEVER 數據集。我們認為，答案生成是正確的，如果它們在輸出中包含 KILT 的答案。對於我們的 RAG 系統，我們選擇了三種不同的檢索器（BM25、OpenAI Ada 嵌入與餘弦相似性搜索以及 ColBERTv2）和三種不同的生成 LLM（MPT-7b-Instruct、GPT-3.5-Turbo 和 GPT-4）。此外，我們還包括使用 DPR 檢索器和 BART 序列到序列模型的 Facebook RAG 模型。在檢索過程中，每個 RAG 系統僅檢索一個段落來輔助生成。

在真實世界應用中，ARES 能夠可靠地評分和排名 RAG 系統，平均 Kendall’s tau 為上下文相關性 0.91 和答案相關性 0.97。與 RAGAS 相比，ARES 在上下文相關性和答案相關性上的平均值分別高出 0.16 和 0.15。ARES 還提供了準確的置信區間，其預測捕捉到上下文相關性和答案相關性的真實平均結果超過 95% 的時間；PPI 置信區間平均寬度為上下文相關性 7.4 點和答案相關性 6.1 點。在測試的模型中，表現最佳的檢索器是 ColBERTv2，而表現最佳的生成 LLM 是 GPT-4。

5. 結論

ARES 作為一個創新的自動化 RAG 評估系統，顯著提升了數據效率和評估準確性，為 RAG 系統的開發和比較提供了重要的指導。未來的研究方向包括探索使用 GPT-4 替代人工標註，採用更健壯的技術來生成微調評估模型所需的合成數據集，以及測試更先進的 LLM 作為 ARES 的微調評審員。