AI 長文理解能力大比拼!📊 Fiction.LiveBench 最新評測顯示,多數模型隨文本變長表現會下降📉。超亮眼:Gemini 2.5 Pro Exp Free 在 120k token 下依然是王者!💪 部分 :free 免費模型性價比也很高 ✨。快來看看哪個 AI 最懂你的長篇故事!🤔 #AI #大語言模型 #長文本 #深度理解 #評測
How well do AI models understand long stories? 🤔 New Fiction.LiveBench results reveal performance often drops with text length! 📉 Standout: Gemini 2.5 Pro Exp Free dominates even at 120k tokens! 💪 Several :free models show promise too. Check the long context champs! ✨ #AI #LLM #LongContext #Benchmark #DeepComprehension
1. 研究背景與資料來源
本報告旨在分析不同大型語言模型(AI Model)在處理長文脈絡時的深度理解能力。數據來源於 Fiction.LiveBench 於特定日期(根據 URL 推測為 2025 年 4 月 14 日,儘管日期可能僅為標識符)發布的評測結果(URL: https://fiction.live/stories/Fiction-LiveBench-April-14-2025/oQdzQvKHw8JyXbN87)。該基準測試(Benchmark)專注於評估模型在不同 Token 長度(從 0 到 120k Tokens)下,對小說等虛構文本的理解表現。評分以百分比呈現,分數越高代表理解能力越強。
2. 結果摘要
- 初始表現: 大多數頂尖模型在極短文脈(0 Tokens)下都能達到 100% 的表現,顯示其基礎能力強勁。
- 性能衰退趨勢: 隨著 Token 數量的增加,所有模型的表現幾乎都呈現下降趨勢,但下降的幅度與速度因模型而異。
- 長文脈絡挑戰: 在極長文脈(如 60k, 120k Tokens)下,模型間的表現差異顯著擴大。部分模型能維持相對較高的分數,而另一些則出現大幅滑落甚至無法完成評測(數據顯示為 – 或空白)。
- 頂尖模型突出: gemini-2.5-pro-exp-03-25:free 在所有測試長度下均表現出色,尤其在 120k Tokens 時仍能維持 90.6 的高分,是本次評測中最突出的模型。o1 和 claude-3-7-sonnet-20250219-thinking 在中短文脈表現優異,但在長文脈下衰退較 gemini-2.5-pro 明顯。
- 免費模型表現: 部分標註為 :free 的模型展現出相當的競爭力,尤其是 gemini-2.5-pro-exp-03-25:free。其他如 qwq-32b:free 在 60k Token 前也保持不錯的表現。
3. 面向分析
a) 表現分析 (Performance Analysis)
- 短文脈 (0 – 4k Tokens): 在此區間,多個模型如 o1, claude-3-7-sonnet-thinking, gemini-2.5-pro-exp-free, gpt-4.5-preview, qwq-32b:free 等均能維持 90 分以上的高水平,差異不大。
- 中文脈 (8k – 32k Tokens): 差異開始顯現。gemini-2.5-pro-exp-free 依然領先,o1, claude-3-7-sonnet-thinking, deepseek-r1, qwq-32b:free 等維持相對不錯的表現。而像 o3-mini, gpt-4.1-mini/nano, llama 系列等模型則出現較明顯的性能下滑。
- 長文脈 (60k – 120k Tokens): 這是最具挑戰性的區間。gemini-2.5-pro-exp-free 一枝獨秀 (60k: 83.3, 120k: 90.6)。o1 (72.2, 53.1), grok-3-mini-beta (72.2, 65.6), chatgpt-4o-latest (55.6, 65.6) 也能處理 120k Token,但分數明顯降低。許多模型在此區間數據缺失或分數極低 (如 deepseek-chat:free 在 32k 後急遽下降,llama-4-scout:free 分數僅 20 幾分)。
- 穩定性: gemini-2.5-pro-exp-free 展現了最佳的長文脈穩定性。相比之下,o3-mini 和多數 gpt-4.1 變體、llama 系列在長文脈下穩定性較差。
b) 價格考量 (Price Considerations)
- 標註為 “free” 的模型: 表格中有多個模型標註了 :free,這可能表示它們提供免費試用層級、是開源模型、或是處於免費的實驗/預覽階段。
- 頂級免費模型: gemini-2.5-pro-exp-03-25:free 不僅免費(或有免費管道),其表現更是全面領先,甚至超越了許多可能需要付費的頂級模型,展現了極高的性價比。
- 其他具競爭力的免費模型: qwq-32b:free 在 60k Token 前表現優異(超過 60 分),deepseek-chat-v3-0324:free 在 60k Token 也能維持 55.6 分,對於不需要處理極端長文脈的用戶來說,是成本效益高的選項。gemini-2.0-flash-thinking-exp:free 雖然長文脈表現不佳,但在 4k Token 內尚可。
- 表現較弱的免費模型: gemma-3-27b-it:free, llama-4-scout:free, dolphin3.0-r1-mistral-24b:free 等免費模型在此長文脈理解任務中表現相對較弱,尤其在 Token 數增加後。
- 潛在成本: 需要注意 “free” 不一定代表完全零成本(例如,自架開源模型仍有硬體和維護成本)。但相較於可能按量收費的 API,這些模型提供了更低門檻的選擇。未標註 “free” 的模型(如 o1, claude 系列, gpt 系列的主力版本)通常被認為是商業模型,使用上可能有較高的費用。
4. 結論與建議
- 長文脈處理能力是關鍵差異: 此次評測清楚顯示,模型在處理長文脈(特別是超過 32k Tokens)時的表現差異巨大,這是選擇模型時的重要考量。
- 首選推薦:
- 若追求極致的長文脈理解能力(至 120k Tokens)且考慮成本效益,gemini-2.5-pro-exp-03-25:free 是目前數據上的最佳選擇。
- 若僅需處理中短文脈(最高約 32k Tokens),則選擇範圍較廣,o1, claude-3-7-sonnet-thinking, gemini-2.5-pro-exp-free, deepseek-r1, qwq-32b:free, gpt-4.5-preview 都是強力的候選者,可根據具體應用場景的細微需求(如特定任務的偏好、延遲要求、API 穩定性等)和預算進一步評估。
- 成本敏感型用戶: 除了頂尖的 gemini-2.5-pro-exp-free 外,qwq-32b:free 和 deepseek-chat 系列的免費版本提供了在中等長度文脈下具有競爭力的表現。
- 注意事項:
- 本評測專注於小說類文本的深度理解,模型在其他任務(如程式碼生成、邏輯推理、事實問答)上的表現可能不同。
- “free” 標籤的具體含義(免費層、開源、預覽)可能影響實際可用性和限制。
- 評測分數僅代表特定基準測試下的表現,實際應用效果可能因輸入數據的特性和提示工程而異。建議在實際部署前進行針對性測試。
1 comment
Good https://is.gd/tpjNyL