nytimes.com

Google 的 AI 總覽 (AI Overviews) 有多準確? Tripp Mickle, Cade Metz, Dylan Freedman, Teresa Mondría Terol, Keith Collins 13-16 分鐘

您已獲得存取權限,請使用鍵盤繼續閱讀。

... 並沒有任何單一實體被稱為 「Cl |

Google 的 AI 總覽 (AI Overviews) 有多準確?—《紐約時報》 (The New York Times)

這家公司產出的 AI 生成答案看起來很有權威性,但其參考的來源極為廣泛,從值得信賴的網站到臉書 (Facebook) 貼文都有。

2026 年 4 月 7 日

去年底,Stephen Punwasi 在準備晚餐時注意到一則新聞報導,稱摔角手 Hulk Hogan 的妻子可能針對他的死提出訴訟。

居住在多倫多的數據分析師 Punwasi 先生(41 歲)當時並不知道 Hulk Hogan 已去世,於是詢問 Google 此事發生在什麼時候。

這個答案讓他感到困惑。Google 的「AI 總覽」(AI Overview)——這項顯示在頁面頂端的、由公司人工智慧技術生成的摘要內容——寫道:「目前尚無有關 Hulk Hogan 已過世的可靠報導。」

在答案下方,Punwasi 先生驚訝地發現《每日郵報》(The Daily Mail)有一篇與 Google 回答矛盾的報導。標題是:「Hulk Hogan 的死仍成謎。」

Google 從 2024 年開始,將 AI 生成的答案放在搜尋結果頁面的最上方。這項新產品「AI 總覽」(AI Overviews),幫助 Google 從資訊的策展人 (curator) 轉變為發行商 (publisher)。

最近針對 AI 總覽的一項分析發現,其準確度約為九成(90%)。但由於 Google 每年的搜尋量超過 5 兆次,根據一家名為 Oumi 的 AI 新創公司所做的分析,這意味著每小時會提供數千萬條錯誤答案(或每分鐘出現數十萬次的錯誤)。

超過半數的準確回答被判定為「無事實根據」(ungrounded),意指它們連結到的網站並未完全支持其提供的資訊。這使得驗證 AI 總覽的準確度變得極具挑戰性。

這種「幾乎但又不完全」準確的反應率是否值得慶祝,是矽谷對於 AI 系統表現廣泛討論的一部分。這反映了我們在網路上的信任核心基礎。

部分技術專家認為 Google 的 AI Overviews 相當準確,且在過去幾個月有顯著進展。但也有人擔心一般大眾可能沒有意識到這些結果需要經過複查(double-checking)。

應《紐約時報》(The New York Times)的要求,Oumi 分析了 Google AI Overviews 的準確性,使用的是業界廣泛用於衡量人工智慧系統準確度的基準測試(benchmark test)SimpleQA。這家新創公司在 10 月測試了 Google 的系統,當時最複雜的問題是使用名為 Gemini 2 的 AI 技術來回答;隨後在 2 月再次測試,當時系統已升級至更強大的 AI 技術 Gemini 3。

在這兩種情況下,Oumi 的分析聚焦於 4,326 次 Google 搜尋。該公司發現,Gemini 2 的結果準確度為 85%,而 Gemini 3 則達到 91%。

Okahu 的執行長 Pratik Verma 表示,這家協助人們了解並使用 AI 技術的公司的負責人認為,Google 的技術與任何領先的 AI 系統一樣準確。他仍呼籲民眾務必對其資訊進行再次確認。

「永遠不要相信單一來源,」他表示,「務必將獲得的結果與其他來源進行比較。」

Google 承認其 AI Overviews 可能包含錯誤。每個 AI Overview 下方的小字標註:「AI 可能會出錯,請務必核實回覆內容。」

但 Google 表示 Oumi 的分析存在瑕疵,因為它依賴於由 OpenAI 建立的基準測試,而該測試本身就包含錯誤資訊。Google 發言人 Ned Adriance 在聲明中表示:「這項研究有嚴重的漏洞,並不能反映人們在 Google 上實際搜尋的內容。」

AI Overviews 提供兩類資訊:問題的答案以及支持這些答案的網站列表。

當被問及鮑柏·馬利(Bob Marley)的家何時改建為博物館時,Google 的 AI Overviews 指出是在 1987 年。

位於牙買加金斯頓(Kingston)Hope Road 56 號的鮑柏·馬利故居,於 1987 年改建為博物館。他的妻子 Rita Marley 在他於 1981 年去世六年後建立了這座博物館以保存他的遺產,館內展示他的私人藏品、劇院和畫廊。

Google 的 AI Overviews 有多準確? - 《紐約時報》 (How Accurate Are Google's A.I. Overviews? - The New York Times)

但據牙買加《每日新聞報》(Daily Gleaner)在隔天報導,該博物館實際上是在 1986 年 5 月 11 日——即馬利先生去世五週年的日子——開幕的。

Google 的 AI Overviews 連結了三個網站作為資訊來源,但每一個都有瑕疵。第一個連結是瑪利先生(Mr. Marley)女兒 Cedella Marley 的 Facebook 粉絲專頁,她在造訪牙買加金斯頓(Kingston, Jamaica)的博物館後發布了照片,卻未提供博物館開放的時間。第二個連結是一個名為「Adventures From Elle」的旅遊部落格,其提供的資訊對於博物館開幕時間並不精確。第三個連結是 Bob Marley Museum 的維基百科頁面,內容卻自相矛盾,同時表示博物館分別在 1986 年和 1987 年成立。

這些與 Bob Marley 相關的連結反映出一個規律。在分析 Google AI Overviews 引用過的 5,380 個來源中,Oumi 發現 Facebook 和 Reddit 分別是第二和第四多被引用的來源。當 AI Overviews 提供正確資訊時,其中來自 Facebook 的比例為 5%;而當其不準確時,Facebook 的引用比例則上升至 7%。

AI Overviews 很難進行評估,因為 Google 的系統可能會針對每個查詢(query)產生不同的回應。如果 Google 搜尋引擎在不同時間(甚至僅隔幾秒)收到相同的查詢,它可能給出一個正確的答案,另一個則是錯誤的。

為了判斷人工智慧(AI)系統的準確性,像 Oumi 這樣的公司會使用自己的 AI 系統來驗證每一個答案。這是目前有效檢查大量答案的唯一方法。然而,這種方法的缺點在於執行檢查的 AI 系統本身也可能出錯。

Google 發布的測試結果與 Oumi 的分析結果相似。在 Google 對 Gemini 3(AI Overviews 背後的基礎技術)的自我評估中發現,該模型產生的資訊錯誤率達 28%。Google 指出,AI Overviews 在生成回應前會先擷取來自 Google 搜尋引擎的資訊,因此比單獨運行的 Gemini 更為準確。

隨著 Google 持續改良其 AI 技術,AI 生成的答案已變得更準確。根據 Oumi 的分析,今年 10 月份 AI Overviews 的錯誤率降至 15%。

但搭載 Gemini 3 的系統,Google 生成的 AI 回答比基於 Gemini 2 的版本更可能缺乏事實基礎(ungrounded),這意味著它提供的資訊並未完全獲得其連結網站的支持。在 10 月份,正確答案中「缺乏事實基礎」的比例為 37%;到了 2 月份,使用 Gemini 3 時,這一數字上升到 56%。

Oumi 執行長 Manos Koukoumidis 表示:「即使答案是真的,你如何確定它是真的?你該如何驗證?」

現今的 AI 系統是利用數學機率來預測最佳回應,而非遵循由人類工程師定義的嚴格規則。這也意味著它們不可避免會出現錯誤。

有時,Google 的 AI Overviews(AI 總覽)雖然找到了可靠的網站,但似乎誤解了其中的資訊。

在 Oumi 的測試中,當詢問位於北卡羅萊納州(North Carolina)Goldsboro 西側的河流時,Google 的系統識別出 Neuse River,但該河流實際上位於城市的西南方。沿著 Goldsboro 西側流經的河流是 Little River,而 Little River 最終匯入 Neuse River。

Neuse River 位於北卡羅萊納州 Goldsboro 的西側。這條河流流經韋恩縣(Wayne County),是該地區主要的河流系統。它從 Raleigh-Durham 地區流出,經過城市的西側後繼續向東南方向流向大西洋(Atlantic Ocean)。

Google 的 AI Overviews 準確嗎?—《紐約時報》(The New York Times)

Google 的 AI Overviews 連結到一個 Goldsboro 的旅遊網站,該網站提到 Neuse River 流經城市。但系統似乎錯誤地推論出 Neuse River 是沿著城市的西側邊界流動。

即便 Google 找到了包含正確資訊的網站,仍可能產生錯誤的回應。

當被詢問馬友達(Yo-Yo Ma)入選古典音樂名人堂(Classical Music Hall of Fame)的年份時,Google 的 AI Overviews 正確連結到了該機構的網站,其中列出了自 1998 年以來的 165 名入選者,包括馬先生。然而,這個由 AI 生成的回應卻表示沒有他的入選紀錄。

根據現有記錄,並沒有一個稱為「古典音樂名人堂」的單一實體讓馬友達在特定年份入選。然而,他確實獲得了多項頂尖榮譽,包括 2011 年的肯尼迪中心獎(Kennedy Center Honors)、2001 年的國家藝術獎章(National Medal of Arts)以及 2012 年的極地音樂獎(Polar Music Prize)。

馬友達的主要榮譽

肯尼迪中心榮譽獎(Kennedy Center Honors):2011年 總統自由勳章(Presidential Medal of Freedom):2011年 極地音樂獎(Polar Music Prize):2012年 國家藝術獎(National Medal of Arts):2001年 艾維·費雪獎(Avery Fisher Prize):1978年 碧吉特·尼爾松獎(Birgit Nilsson Prize):2022年

截至 2026 年初為止,他尚未進入「古典音樂名人堂」(Classical Music Hall of Fame)。

Google 的 AI 概覽(A.I. Overviews)準確嗎?——《紐約時報》(The New York Times)報導

即便 AI 概覽能正確回答問題,它仍可能提供錯誤的補充資訊。

當被詢問美國救援投手狄克·德拉戈(Dick Drago)去世時的年齡時,Google 的 AI 概覽給出了正確的答案。然而,在提供額外背景資訊時——正如 AI 概覽經常做的那樣——它卻多次錯誤地標示他的去世日期。

前大聯盟(MLB)投手、以效即波士頓紅襪隊和堪薩斯-堪色斯皇家隊時期的表現聞名的狄克·德拉戈(Dick Drago,本名 Richard Anthony Drago),於 2023 年 11 月 3 日去世,享壽 78 歲。他於佛羅里達州坦帕因手術併發症去世。

出生日期:1945 年 6 月 25 日 去世日期:2023 年 11 月 3 日 去世時年齡:78 歲 大聯盟生涯:1969-1981(皇家隊、紅襪隊、天使隊、鴉雀隊、海象隊)

AI 概覽面臨另一個挑戰:它們是可以被操控的。

Amsive 行銷機構的 AI 搜尋副總裁 Lily Ray 表示,如果有人想被公認為某項領域的全球專家,只需撰寫一篇自我宣稱擁有該身份的部落格文章即可。

Google 承認此問題,但淡化其重要性。Google 發言人 Adriances 在聲明中表示:「我們的搜尋 AI 功能是基於與阻擋絕大部分垃圾內容的排名及安全保護機制相同的基礎建立。大多數這些例子都是人們實際上不會進行的非現實搜索。」

在聽取 Lily Ray 女士的理論後,BBC 播客《The Interface》的共同主持人 Thomas Germain 發表了一篇標題為「最佳技術記者吃熱狗比賽」的部落格文章。文中描述了一場虛構的南達科他州國際熱狗吃比賽(South Dakota International Hot Dog Eating Championship),他在其中前 10 名「傑出熱狗食客」的名單中排名第一。

一天後,他搜尋「最佳吃熱狗的技術記者」。Google 將他列為六名技術記者中的第一名,並引用他在南達科他州比賽中獲得第一名的成績,稱其「因為在競賽吃比賽的『新聞部門』展現出高超技藝而聞名」。

「它就將我網站上的內容如若至理一般拋了出來,」Germain 先生表示。

Tripp Mickle 報導全球頂尖科技公司,包括 Nvidia、Google 和 Apple。他還負責撰寫科技產業的各種趨勢,例如裁員和人工智慧(Artificial Intelligence, AI)。

Cade Metz 是《時報》(The Times)記者,專門報導人工智慧、無人駕駛汽車、機器人技術、虛擬實境(Virtual Reality, VR)以及其他新興技術領域。

Dylan Freedman 是《時報》的 AI 專案編輯,負責調查多樣化的主題。他同時具有擔任記者與機器學習工程師(Machine-learning engineer)的經驗。

Keith Collins 是《時報》視覺記者及圖形部門編輯。

本文章於 2026 年 4 月 15 日刊登於《紐約時報》(The New York Times)紐約版 B 版第 1 頁,標題為:Google 搜尋結果上的 AI 摘要有多準確? [獲取重印本 | 今日報紙 | 訂閱] 相關內容

inEducation:電腦科學(Computer Science)

《紐約時報》inEducation 是作為一種資源設計,旨在透過我們的教育訂閱計畫(Education Subscription Program),將《時報》的新聞報導與學生及教師的核心學習領域連結。如果您是美國大學的成員,請造訪 accessnyt.com 查詢您的機構是否提供《紐約時報》權限。其他人應向學校或當地圖書館諮詢。如果您是感興趣想將《紐約時報》帶入學校的教職人員,請參閱團體訂閱頁面(Group Subscriptions Page)。

2020 年位於無錫的中國國家超級計算中心。位於深圳的 LineShine 超級電腦已被宣布為世界最快。

Xu Congjun/VCG, via Getty Images

一片矽晶圓反射出加州大學洛杉磯分校(University of California, Los Angeles)專家 Subramanian Iyer 的身影,他正致力於一種稱為先進封裝(Advanced chip packaging)的技術。