幻之言 GPT-NL 也尊重版權?— 開放未來

如同在許多其他地方,Anthropic 的 Fable 模型被突然撤下 在荷蘭引發了大量關於對美國邊緣 AI 模型的依賴的議論。這場荷蘭討論之所以顯得特別重要,是因為有些評論者將此新聞視為抨擊荷蘭主權 AI 主要嘗試(GPT-NL 專案)表現的理由。

這個由 TNO 和多個公共部門夥伴共同執行的專案,於 2023 年啟動,目標是以尊重人權的方式打造一個基於高品質荷蘭內容的大型語言模型。

由於該專案獲得了大量關注,其中一部分原因是由於開發者與版權擁有者簽訂了一系列合約——其中包括一組涵蓋 主要荷蘭新聞媒體 的組織。然而,其實際能力仍籠罩在神秘之中。該模型既未對公眾開放,也沒有任何人公開描述其效能。這份高度保密的狀態使得人們容易低估其實力。

這又導致 其他觀察者為 GPT-NL 辯護,認為它是基於公共價值建立 AI 模型的原則性嘗試,包括「尊重版權、補償並支持我們的媒體機構和文化遺產機構、保護/修復健康的資訊生態系統,以及防止資料和模型維護過程中的剝削」(自行翻譯)。如我之前所論,這些確實是歐洲需要建立公共 AI 生態系統的重要原因之一。但如果像 GPT-NL 所理解的「尊重版權」只是簡單地與建構可用 AI 模型以及保證資訊生態系統整體可持續性相衝突呢?事實上,該專案提供了一些有價值的見解,有助於回答這個問題。

GPT-NL ❤️ 版權持有者

當 GPT-NL 表示其方法基於尊重版權時,這背後的涵義遠不止遵守版權法。它更接近於圍繞一套類似許多版權持有者偏好的規則建立資料採集政策。GPT-NL 只在擁有明確授權的使用資料上進行訓練:公共領域和開放授權內容、公共部門資料以及直接從版權持有人處獲得的已授權內容量。這種僅選擇性授權(opt-in)且不使用網路爬取資料的做法,使其基本上迴避了來自公開網際網路和維基百科的資料。排除了維基百科的原因難以理解——儘管整部荷蘭語維基百科(事實上是可用的最全面、品質最高的荷蘭文文本資源)採用了 CC 授權分享相同(Share Alike, SA)條款,該條款明確允許重新使用。然而,未採用維基百科的決策似乎是由於假設該 Share Alike 條款可能迫使他們將訓練模型開源的考量所驅動 [1]。但這幾乎肯定不正確,因為 Share Alike 機制並未涵蓋模型權重(見 Senftleben and Szkalej (2024))。這並非因為版權要求,而是一種刻意的設計選擇。這種做法使 GPT-NL 成為目前最尊重版權的 LLM 建置專案。

採用這種尊重版權的資料採集策略讓 GPT-NL 能夠與許多荷蘭版權持有者合作,例如 NDP Nieuwsmedia(荷蘭商業新聞出版機構協會),在單一授權協議下引入了主要荷蘭新聞媒體的大量檔案。這項協定是專案的核心特徵之一,但如後我們將看到,它也帶來了重大代價。

這項選擇的成本在於,GPT-NL 放棄了其有權使用的多數訓練資料。根據《著作權指令》(CDSM Directive)第 4 條(https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:32019L0790),允許對合法可存取的內容進行文字和資料探勘,無論其用途為何,包括商業 AI 訓練,前提是權利人已選擇退出。基於此基礎建立的模型可以利用開放網際網路、維基百科以及大量已經版權持有人沒有反對的數位化文本——這正是構成任何具有競爭力的訓練語料庫的大部分內容。這不僅僅是規模問題:開放網際網路還儲存了領域、語體和主題的多樣性,這是即便擁有再龐大的授權新聞檔案庫或公共部門記錄也無法單獨提供的廣度。考慮到訓練資料的規模和多樣性對模型品質至關重要,這構成了 GPT-NL 在能力上的顯著限制。

是否尊重版權會傷害模型?

Until now,由於 GPT-NL 尚未對外公開,這項取捨一直難以量化。根據專案資料,GPT-NL 目前正處於封閉測試階段。[2] 截至其 2026 年二月進度報告,該模型已與五家荷蘭公共部門的發行商進入試執行階段,並計畫在 2026 年下半年提供更廣泛的使用。[4] 然而,上週 Edwin Rijgersberg(截至 2025 年九月為止,NFI 的 GPT-NL 專案負責人)發表了一篇部落格文章,分析了一組基準測試結果。[5] 在該分析中,他使用這些基準測試結果來比較 GPT-NL 與專案所使用的參考模型表現(包括 GPT-3.5Llama 2 7B 以及近期歐洲開源模型 Mistral Small 3.2)。結果並不理想:在所有四項荷蘭語指標中,專為荷蘭語設計的 GPT-NL 被至少兩款非荷蘭語模型超越,且這三款模型中沒有任何一款具有針對荷蘭語的訓練目標。[6] 其中一項事實知識指標的差距尤為明顯:GPT-NL 的得分幾乎與隨機猜測相當。 Rijgersberg 的文章旨在評估 GPT-NL 作為可用主權替代方案的能力,儘管他不斷將其弱勢效能歸咎於專案限制性的資料採集政策。[3] 不過,Rijgersberg 將 GPT-NL 的荷蘭語訓練資料列記為少於 550 億個標記(僅佔總量的約 10%)。為了提供視角,他指出歐盟資助的 HPLT v3.0 網路爬蟲資料集——該資料集未依循採集政策且包含超過 1500 億個荷蘭語標記——作為比較的基礎,以此隔離評估採集政策的影響並非其主要目標。要了解採集政策在多大程度上影響表現,我們需要進行不同的比較。[7]

比較我們需要的是一個同樣重視版權合規,但比 GPT-NL 自行迴避更謹慎的模型。瑞士的 Apertus 模型 [4] Apertus 於 2025 年 9 月由一個瑞士公眾聯盟(EPFL、ETH 西隆大學與國家超級電腦中心 CSCS)釋出。它像 GPT-NL 一樣,是一個以廣泛尊重版權為基礎的開放主權模型建設計畫。Apertus 分別在技術報告中對訓練資料的選擇做了詳細說明,甚至回溯性地篩選了網頁爬取的結果,確保移除已註冊使用者偏好出局的內容,以符合歐盟版權指令。然而,與 Apertus 的關鍵差異是它並未因原則而拒絕開放網路;而是依賴文字和資料探勘例外條款,只移除擁有者明確註冊退出的內容。

Apertus 在 Rijgersberg 使用於相同基準的評分可於 EuroEval [5] EuroEval 荷蘭領先榜(v16.10.1,2026 年 6 月 20 日擷取)中找到。ScaLA-nl(MCC)與 SQuAD-nl(EM)從 NLP 角度;MMLU-nl(MCC)則從生成觀點。表格列出了瑞士人工智慧 / Apertus-8B-2509 與瑞士人工智慧 / Apertus-70B-2509 的評分。Apertus-8B WikiLingua-nl 資料由 Edwin Rijgersberg 提供,與 GPT-NL 的分數相同指標。下圖將 Apertus-8B 基準模型的結果與他的數字 [6] 並列:Apertus 以 8B 與 70B 版本呈現,每種版本都有基準與指令微調變體。8B 基準模型是 GPT-NL 基礎模型的最接近對照——一個未經指令微調的基準模型;其參數規模為 80 億,小於 GPT-NL,因此僅憑規模無法判定獲勝。