開放科技可用材料 / 可進編輯台Ian 近期正在讀想分享已標記 7 天2026-06-02 08:00

G7 如何區分「開源 AI」與「開放權重」

Stephen O'Grady 分析 G7 最新 AI openness 文件，指出 G7 一方面肯定開源與 AI 開放性帶來的社會與經濟價值，另一方面也承認「Open Source AI」與「Open-Weight」的意義仍有爭議。文章的核心判斷是，AI 模型的開放程度無法像傳統程式碼一樣用開源／閉源二分法界定，因為模型權重、部署程式碼、訓練程式碼、訓練資料與使用限制都會影響實際可重製性與可用性。G7 因此提出四層分類，從完整開放資料與程式碼的 Open Source AI with Open Data，到只開放權重與部分程式碼但含使用限制的 Weights Available AI。作者認為這等於承認單一定義難以同時滿足原則派與務實派，並可能讓「開放權重」成為比「開源 AI」更可操作的產業語言。

開放原始碼開源 AI / OSAID開放權重AI openness

中文翻譯

中文全文

tecosystems

作者：Stephen O'Grady |

@sogrady |

2026 年 6 月 2 日

「開源」（open source）這個詞是在 1998 年被創造出來的，至少有一部分原因，是因為它之前使用的詞不夠清楚，需要額外解釋。Free software（自由軟體）這個說法對熟悉它的技術社群來說具有描述性，也能被理解；但對新接觸的人來說卻容易誤導，因為他們往往會從商業價格、而不是哲學理念來理解 free。換句話說，當時很明顯需要一個新的描述詞，於是 open source 便出現了。

在開源 AI 的提議定義推出兩年後，採用情況仍然很有限，而且越來越多人意識到：不同於純粹的原始碼，構成 AI 模型的各項資產，不能被簡化為單一、二分的開放與封閉定義。

這並不是說開源授權與承諾套用在原始碼上時就很簡單。它們可能很複雜、有細微差異，也很難解釋。但至少它們仍是二分的：程式碼不是開源，就是不是。相較之下，現在已經很清楚，開源 AI（而程式碼只是其中很小的一部分）必須被定義在一條從封閉到開放的光譜上。

G7 國家似乎也同意這點，並納入了 OSI（Open Source Initiative）等單位的意見。它們本週發布的文件〈G7 Vision on AI openness opportunities and shared language〉有幾個重要重點：

第一，它清楚且毫不含糊地指出，開源與 AI 開放性都具有巨大的社會效益。文件甚至稱後者是「我們經濟的重要貢獻者」。
第二，它承認，如果缺乏清楚、一致的定義，可能會帶來風險與未來的潛在傷害。「AI 領域缺乏清晰性，往往會讓人懷疑這類技術的開放程度，進而削弱它們的效益。」
第三，它明確拒絕嚴格的開放或封閉定義：「AI 的開放性不是二分的。」
第四，它隱含地否定了既有定義：「Open-Weight 或 Open Source AI 的意義仍有爭議。」
最後，它提出一套四層級系統，用來分類位於開放光譜上的 AI 專案。

這套分類方式在某些方面類似既有嘗試，例如 Linux Foundation 的 Model Openness Framework。兩者都面向同一種情境：不同專案會在具體開放哪些東西、以什麼條件開放，以及是否對使用設下限制等方面有所差異。不過 MOF 相當細緻，會圍繞整個開發生命週期中的 17 個組件替專案評級；G7 的願景則比較簡單。它根據五個組件定義四個層級：權重、部署程式碼、訓練程式碼、訓練資料，以及使用限制。

粗略來說，這些層級可以從最開放到最不開放描述如下：

開放資料的開源 AI（Open Source AI with Open Data）：一切都是開放的，且採用 OSI 認可授權條款，包括程式碼、資料、權重與所有資產。
開源 AI（Open Source AI）：可取得的部分是開放的；它可能包含、也可能不包含訓練資料，但必須包含完整訓練程式碼。
開放權重 AI（Open Weights AI）：權重與程式碼可取得，且採用 OSI 認可授權條款，但沒有其他內容。
權重可取得 AI（Weights Available AI）：權重與程式碼可取得，也開放供檢視，但因為使用限制或其他被禁止的限制，採用的授權條款不能被稱為開源。

產業能不能適應一種取決於滑動尺度、而不是固定是非題的開放定義，仍有待觀察。但它也沒有選擇。兩年的發展與討論，以及兩年與提議定義共處的經驗，並沒有讓我們更接近產業共識。然而，G7 國家在這份文件中，有意或無意地同時承認了這個事實、讓它變得不再重要，並隱含地提出了自己的替代方案。

任何單一定義的開源 AI 都面臨一個挑戰：它不可能同時滿足定義上的純粹派與務實派。前者指出，任何允許省略訓練資料的定義，實際上都是把開源這個詞授予一個永遠無法被獨立複製的專案。這個說法合理。另一方面，後者則指出資料集本身有許多問題，從資料授權的繁複難解，到這些資料集規模龐大所造成的實務不可行性。這些說法也合理。你可以讓其中一派對開源定義感到滿意，但無法同時取悅兩邊。

G7 的提案等於承認，這場辯論已經沒有結果。取而代之的是，就實質效果而言，G7 提議讓「開源 AI」這個詞退場，改以「開放權重」取代。

一方面，G7 的框架中確實不只一個，而是有兩個不同層級明確引用了「開源」這個詞。因此，這種退場並不是字面上的。開源 AI 的定義仍然存在。

但如果沒有任何主要的競爭性模型能符合這個定義，那麼這個定義還重要嗎？

兩週前，我們調查了一組龐大且具代表性的相關模型樣本。此後，我們又新增了幾個追蹤模型。快速檢視這批樣本的授權條款後，可以看出一些趨勢。在受調查的模型中，有 28 個是封閉的，因此與開放性討論無關。在樣本中剩下的 40 個模型裡，有一半是權重可取得 AI（非 OSI 認可授權），另一半是開放權重 AI（OSI 認可授權）。這也意味著，沒有任何一個是開源 AI，也沒有任何一個是開放資料的開源 AI。

要說清楚的是，確實存在一些邊界案例：IBM 發布了詳細的訓練文件與方法，但沒有發布程式碼。Meta 在 Llama 旁邊釋出了微調配方與腳本（llama-recipes），但同樣沒有發布程式碼。Deepseek 則可以說走得最遠，提供了強化學習訓練程式碼與蒸餾腳本，但沒有提供完整流程。因此，依照 G7 的定義，這些都不被視為開源 AI。

而在我們的樣本之外，也有一些模型提供資料、程式碼與權重，最明顯的是 AI2 的 OLMo 與 EleutherAI 的 Pythia。但相較於這裡追蹤的開放與封閉模型，它們並不特別具有競爭力，因此不納入考量。

簡單來說，G7 的提案一方面把開源 AI 的定義法典化，另一方面又同時讓它變得不再重要。於是，至少在未來真正開源的模型變得更具競爭力之前，「開放權重」會在預設狀態下成為事實上的專門用語。與其把開源 AI 的定義模糊到失去意義，一個新的、更具描述性的「開放權重」詞彙試圖緩解前一個詞的缺點；這很像當年「開源」之於「自由軟體」所做的事。

即使是像 G7 這樣具分量的組織，是否能推動外界採用它提出的框架，目前仍不清楚；而且也存在一個問題：產業術語應該由誰來定義，政府還是產業組織？但如果這項努力成功，而「開源」這個詞實質上被限縮回只描述原始碼，那可能會是最好的結果。希望從開放光環中受益的供應商，仍可使用一個與開源分開且不同的詞；如此一來，這個詞也能避免受到使用限制、缺乏訓練資料，以及其他違反開源定義原始精神與意圖的問題所污染。

在過去開源純粹派與務實派的辯論中，後者經常主張，如果開源定義太嚴格，就永遠不會被使用。

也許從一開始，錯誤就在於假設那是一件壞事。

揭露：G7 與 OSI 都不是 RedMonk 的客戶。