所有頂級AI模型準確率都突破不了70%？Google揭示行業真相

來源：投資界2025-12-12 16:01:28

當你向ChatGPT詢問一個事實性問題，或讓Claude分析一張財務圖表時，你可能會認為這些頂級AI模型會給出準確答案。但Google剛剛發布的一項基準測試結果令人震驚：包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在內的所有主流AI模型，在事實準確性測試中的得分都無法突破70%。

換句話說，即使是最強大的AI，也有超過30%的概率給你錯誤信息。

【資料圖】

2025年12月，Google的FACTS團隊聯合數據科學平臺Kaggle正式發布了FACTS基準測試套件（FACTS Benchmark Suite），這是業界首個系統性評估大語言模型"事實準確性"的綜合框架。測試結果不僅讓Gemini 3 Pro獲得了第一名的位置，更重要的是，它揭示了一個行業性難題：沒有任何一個模型能夠突破70%的準確率關口。

對于技術領導者和企業決策者來說，這是一個明確的信號：AI的"信任但驗證"時代遠未結束。

為什么事實準確性如此重要？

市面上不乏各種AI基準測試——從代碼編寫能力到指令遵循，從網頁瀏覽到工具使用。但這些測試都有一個共同的盲點：它們衡量的是AI完成特定任務的能力，而不是生成信息的準確性——特別是在處理圖像、圖表等多模態內容時，能否輸出客觀正確、與真實世界數據相符的信息。

對于法律、金融、醫療等準確性至關重要的行業來說，缺乏標準化的"事實準確性"評估方法一直是個關鍵盲區。律師需要確保案例引用準確，財務分析師需要確保數據解讀無誤，醫生需要確保診斷建議可靠——但在FACTS測試發布之前，我們缺少一個統一的標準來衡量AI在這些場景下的表現。

FACTS測試填補了這一空白。相關研究論文將"事實準確性"細分為兩個操作場景：

情境事實性（Contextual Factuality）：基于提供的數據進行準確回答的能力

世界知識事實性（World Knowledge Factuality）：從記憶或網絡檢索信息的準確性

FACTS測試：四大維度全面評估

FACTS測試不是簡單的問答游戲，而是模擬了開發者在生產環境中會遇到的四種真實失敗場景：

1. 參數基準測試（Parametric Benchmark）：內部知識考核

測試內容：模型能否僅使用訓練數據準確回答百科式問題？

這就像考學生的基礎知識儲備——“法國的首都是哪里？”"誰寫了《1984》？"測試模型的內部記憶是否可靠。

2. 搜索基準測試（Search Benchmark）：工具使用能力

測試內容：模型能否有效使用網絡搜索工具檢索并綜合實時信息？

這是開卷考試——給模型配備搜索工具，看它會不會查資料、用資料，能否找到正確答案并準確引用。

3. 多模態基準測試（Multimodal Benchmark）：視覺理解能力

測試內容：模型能否準確解讀圖表、圖示和圖像，而不產生幻覺？

這是"看圖說話"測試——給AI一張財務圖表、數據可視化或信息圖，看它能否準確提取信息，而不是編造數據。

4. 落地基準測試 v2（Grounding Benchmark v2）：上下文忠實度

測試內容：模型能否嚴格依據提供的源文本回答，不添油加醋？

這是閱讀理解測試——給模型一段文字，看它會不會老老實實按原文回答，還是會自行發揮、編造信息。

測試規模：Google公開了3,513個測試樣本，同時Kaggle保留了一個私有數據集以防止"應試訓練污染"——這是基準測試中的常見問題，模型可能會針對已知測試題進行優化。

排行榜：毫厘之爭背后的真相

初步測試結果顯示，Gemini 3 Pro以68.8%的綜合FACTS得分位居榜首，其次是Gemini 2.5 Pro（62.1%）和OpenAI的GPT-5（61.8%）。但深入數據，我們會發現工程團隊真正的戰場在哪里。

15 個領先模型及其整體 FACTS 得分數據來源：FACTS團隊發布報告

三大關鍵發現：對開發者意味著什么？

發現一：沒有模型突破70%大關

即使是排名第一的Gemini 3 Pro，綜合得分也僅為68.8%。這意味著在實際應用中，大約每3次AI輸出就有1次可能包含錯誤信息。

對企業的影響：在關鍵業務場景中，必須建立人工審核機制。不要假設AI的回答是100%可靠的。

發現二：搜索能力遠超內部記憶

對于構建RAG（檢索增強生成）系統的開發者來說，搜索基準測試是最關鍵的指標。

數據顯示，模型"找信息"的能力和"記住信息"的能力之間存在巨大差距。例如：

Gemini 3 Pro：搜索能力83.8% vs 內部知識76.4%（差距7.4個百分點）

GPT-5：搜索能力77.7% vs 內部知識68.8%（差距8.9個百分點）

結論：這驗證了當前企業架構的標準做法——不要依賴模型的內部記憶獲取關鍵事實。

如果你正在構建內部知識機器人，FACTS的結果明確表明：將模型連接到搜索工具或向量數據庫不是可選項，而是將準確率推向可接受生產水平的唯一途徑。

發現三：多模態是重災區

對產品經理來說，最令人警醒的數據點是多模態任務的表現。所有模型的得分都普遍偏低，即使是該類別的領先者Gemini 2.5 Pro，也只達到46.9%的準確率。

測試任務包括閱讀圖表、解讀圖示、識別自然物體。準確率不到50%意味著多模態AI尚未準備好進行無人監督的數據提取。

底線：如果你的產品路線圖包括讓AI自動從發票中提取數據、或在沒有人工審核的情況下解讀財務圖表，你很可能會在流程中引入顯著的錯誤率。

為什么這對你的技術棧很重要？

FACTS基準測試很可能成為企業采購的標準參考點。在評估模型用于企業應用時，技術領導者應該超越綜合得分，深入到與具體用例匹配的子基準：

根據應用場景選擇模型

構建客戶支持機器人？→ 關注"上下文準確性"得分

確保機器人嚴格遵循你的政策文檔，不自行發揮。

有趣發現：在這個維度上，Gemini 2.5 Pro（74.2%）實際上超過了Gemini 3 Pro（69.0%）。

構建研究助手？→ 優先考慮"搜索能力"得分

研究助手需要能夠找到信息、綜合信息，搜索能力是核心。Gemini 3 Pro（83.8%）和GPT-5（77.7%）在這方面表現最佳。

構建圖像分析工具？→ 極度謹慎行事

所有模型的多模態得分都不到50%，意味著錯誤率超過一半。必須配備人工審核機制。

行業影響：信任但驗證的時代

正如FACTS團隊在發布中指出的：“所有評估模型的整體準確率都低于70%，為未來進步留下了相當大的空間。”

對行業來說，信息很明確：模型正在變得更聰明，但它們還遠未達到"絕對可靠"的程度。在設計系統時，請假設大約三分之一的情況下，原始模型輸出可能是錯誤的。

這不是對AI能力的否定，而是對現實的清醒認識。70%的準確率意味著AI已經可以大幅提升效率、輔助決策，但仍需要人類的監督和判斷。

關鍵詞： Google FACTS團隊 Gemini 3 Pro AI

責任編輯：sdnew003

返回首頁返回資訊頻道首頁

熱文排行

財經

綜合

黃金360

【焦點熱聞】如何理解銀行理財產品的收益結構？
頭條：生意社：12月12日昌吉市場蘭炭價格持穩運行
今亮點！偉測科技：12月11日持倉該股ETF資金凈流出91.10萬元，3日累計凈流出461.67萬元
新消息丨QDII產品申購“拼手速” 跨境配置熱度高
成立科技新公司布局充電樁業務？字節跳動澄清：園區部署需要

所有頂級AI模型準確率都突破不了70%？Google揭示行業真相

相關新聞

熱文排行

財經

綜合

黃金360

關注

熱門主題

綜合熱門

熱門主題

科技熱門

熱門主題

所有頂級AI模型準確率都突破不了70%？Google揭示行業真相

相關新聞

熱文排行 財經 綜合 黃金360

關注 熱門主題

綜合熱門 熱門主題

科技熱門 熱門主題

熱文排行

財經

綜合

黃金360

關注

熱門主題

綜合熱門

熱門主題

科技熱門

熱門主題