當你向ChatGPT詢問一個事實性問題,或讓Claude分析一張財務圖表時,你可能會認為這些頂 級AI模型會給出準確答案。但Google剛剛發布的一項基準測試結果令人震驚:包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在內的所有主流AI模型,在事實準確性測試中的得分都無法突破70%。
換句話說,即使是最強大的AI,也有超過30%的概率給你錯誤信息。
【資料圖】
2025年12月,Google的FACTS團隊聯合數據科學平臺Kaggle正式發布了FACTS基準測試套件(FACTS Benchmark Suite),這是業界首 個系統性評估大語言模型"事實準確性"的綜合框架。測試結果不僅讓Gemini 3 Pro獲得了第 一名的位置,更重要的是,它揭示了一個行業性難題:沒有任何一個模型能夠突破70%的準確率關口。
對于技術領 導者和企業決策者來說,這是一個明確的信號:AI的"信任但驗證"時代遠未結束。
為什么事實準確性如此重要?
市面上不乏各種AI基準測試——從代碼編寫能力到指令遵循,從網頁瀏覽到工具使用。但這些測試都有一個共同的盲點:它們衡量的是AI完成特定任務的能力,而不是生成信息的準確性——特別是在處理圖像、圖表等多模態內容時,能否輸出客觀正確、與真實世界數據相符的信息。
對于法律、金融、醫療等準確性至關重要的行業來說,缺乏標準化的"事實準確性"評估方法一直是個關鍵盲區。律師需要確保案例引用準確,財務分析師需要確保數據解讀無誤,醫生需要確保診斷建議可靠——但在FACTS測試發布之前,我們缺少一個統一的標準來衡量AI在這些場景下的表現。
FACTS測試填補了這一空白。相關研究論文將"事實準確性"細分為兩個操作場景:
情境事實性(Contextual Factuality):基于提供的數據進行準確回答的能力
世界知識事實性(World Knowledge Factuality):從記憶或網絡檢索信息的準確性
FACTS測試:四大維度全面評估
FACTS測試不是簡單的問答游戲,而是模擬了開發者在生產環境中會遇到的四種真實失敗場景:
1. 參數基準測試(Parametric Benchmark):內部知識考核
測試內容:模型能否僅使用訓練數據準確回答百科式問題?
這就像考學生的基礎知識儲備——“法國的首都是哪里?”"誰寫了《1984》?"測試模型的內部記憶是否可靠。
2. 搜索基準測試(Search Benchmark):工具使用能力
測試內容:模型能否有效使用網絡搜索工具檢索并綜合實時信息?
這是開卷考試——給模型配備搜索工具,看它會不會查資料、用資料,能否找到正確答案并準確引用。
3. 多模態基準測試(Multimodal Benchmark):視覺理解能力
測試內容:模型能否準確解讀圖表、圖示和圖像,而不產生幻覺?
這是"看圖說話"測試——給AI一張財務圖表、數據可視化或信息圖,看它能否準確提取信息,而不是編造數據。
4. 落地基準測試 v2(Grounding Benchmark v2):上下文忠實度
測試內容:模型能否嚴格依據提供的源文本回答,不添油加醋?
這是閱讀理解測試——給模型一段文字,看它會不會老老實實按原文回答,還是會自行發揮、編造信息。
測試規模:Google公開了3,513個測試樣本,同時Kaggle保留了一個私有數據集以防止"應試訓練污染"——這是基準測試中的常見問題,模型可能會針對已知測試題進行優化。
排行榜:毫厘之爭背后的真相
初步測試結果顯示,Gemini 3 Pro以68.8%的綜合FACTS得分位居榜首,其次是Gemini 2.5 Pro(62.1%)和OpenAI的GPT-5(61.8%)。但深入數據,我們會發現工程團隊真正的戰場在哪里。
15 個領 先模型及其整體 FACTS 得分 數據來源:FACTS團隊發布報告
三大關鍵發現:對開發者意味著什么?
發現一:沒有模型突破70%大關
即使是排名第 一的Gemini 3 Pro,綜合得分也僅為68.8%。這意味著在實際應用中,大約每3次AI輸出就有1次可能包含錯誤信息。
對企業的影響:在關鍵業務場景中,必須建立人工審核機制。不要假設AI的回答是100%可靠的。
發現二:搜索能力遠超內部記憶
對于構建RAG(檢索增強生成)系統的開發者來說,搜索基準測試是最關鍵的指標。
數據顯示,模型"找信息"的能力和"記住信息"的能力之間存在巨大差距。例如:
Gemini 3 Pro:搜索能力83.8% vs 內部知識76.4%(差距7.4個百分點)
GPT-5:搜索能力77.7% vs 內部知識68.8%(差距8.9個百分點)
結論:這驗證了當前企業架構的標準做法——不要依賴模型的內部記憶獲取關鍵事實。
如果你正在構建內部知識機器人,FACTS的結果明確表明:將模型連接到搜索工具或向量數據庫不是可選項,而是將準確率推向可接受生產水平的唯 一途徑。
發現三:多模態是重災區
對產品經理來說,最令人警醒的數據點是多模態任務的表現。所有模型的得分都普遍偏低,即使是該類別的領 先者Gemini 2.5 Pro,也只達到46.9%的準確率。
測試任務包括閱讀圖表、解讀圖示、識別自然物體。準確率不到50%意味著多模態AI尚未準備好進行無人監督的數據提取。
底線:如果你的產品路線圖包括讓AI自動從發票中提取數據、或在沒有人工審核的情況下解讀財務圖表,你很可能會在流程中引入顯著的錯誤率。
為什么這對你的技術棧很重要?
FACTS基準測試很可能成為企業采購的標準參考點。在評估模型用于企業應用時,技術領 導者應該超越綜合得分,深入到與具體用例匹配的子基準:
根據應用場景選擇模型
構建客戶支持機器人?→ 關注"上下文準確性"得分
確保機器人嚴格遵循你的政策文檔,不自行發揮。
有趣發現:在這個維度上,Gemini 2.5 Pro(74.2%)實際上超過了Gemini 3 Pro(69.0%)。
構建研究助手?→ 優先考慮"搜索能力"得分
研究助手需要能夠找到信息、綜合信息,搜索能力是核心。Gemini 3 Pro(83.8%)和GPT-5(77.7%)在這方面表現最 佳。
構建圖像分析工具?→ 極度謹慎行事
所有模型的多模態得分都不到50%,意味著錯誤率超過一半。必須配備人工審核機制。
行業影響:信任但驗證的時代
正如FACTS團隊在發布中指出的:“所有評估模型的整體準確率都低于70%,為未來進步留下了相當大的空間。”
對行業來說,信息很明確:模型正在變得更聰明,但它們還遠未達到"絕 對可靠"的程度。在設計系統時,請假設大約三分之一的情況下,原始模型輸出可能是錯誤的。
這不是對AI能力的否定,而是對現實的清醒認識。70%的準確率意味著AI已經可以大幅提升效率、輔助決策,但仍需要人類的監督和判斷。
關鍵詞: Google FACTS團隊 Gemini 3 Pro AI
版權與免責聲明:
1 本網注明“來源:×××”(非商業周刊網)的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。
2 在本網的新聞頁面或BBS上進行跟帖或發表言論者,文責自負。
3 相關信息并未經過本網站證實,不對您構成任何投資建議,據此操作,風險自擔。
4 如涉及作品內容、版權等其它問題,請在30日內同本網聯系。