tecosystems
作者:Stephen O'Grady |
@sogrady |
2026 年 6 月 2 日
「開源」(open source)這個詞是在 1998 年被創造出來的,至少有一部分原因,是因為它之前使用的詞不夠清楚,需要額外解釋。Free software(自由軟體)這個說法對熟悉它的技術社群來說具有描述性,也能被理解;但對新接觸的人來說卻容易誤導,因為他們往往會從商業價格、而不是哲學理念來理解 free。換句話說,當時很明顯需要一個新的描述詞,於是 open source 便出現了。
在開源 AI 的提議定義推出兩年後,採用情況仍然很有限,而且越來越多人意識到:不同於純粹的原始碼,構成 AI 模型的各項資產,不能被簡化為單一、二分的開放與封閉定義。
這並不是說開源授權與承諾套用在原始碼上時就很簡單。它們可能很複雜、有細微差異,也很難解釋。但至少它們仍是二分的:程式碼不是開源,就是不是。相較之下,現在已經很清楚,開源 AI(而程式碼只是其中很小的一部分)必須被定義在一條從封閉到開放的光譜上。
G7 國家似乎也同意這點,並納入了 OSI(Open Source Initiative)等單位的意見。它們本週發布的文件〈G7 Vision on AI openness opportunities and shared language〉有幾個重要重點:
- 第一,它清楚且毫不含糊地指出,開源與 AI 開放性都具有巨大的社會效益。文件甚至稱後者是「我們經濟的重要貢獻者」。
- 第二,它承認,如果缺乏清楚、一致的定義,可能會帶來風險與未來的潛在傷害。「AI 領域缺乏清晰性,往往會讓人懷疑這類技術的開放程度,進而削弱它們的效益。」
- 第三,它明確拒絕嚴格的開放或封閉定義:「AI 的開放性不是二分的。」
- 第四,它隱含地否定了既有定義:「Open-Weight 或 Open Source AI 的意義仍有爭議。」
- 最後,它提出一套四層級系統,用來分類位於開放光譜上的 AI 專案。
這套分類方式在某些方面類似既有嘗試,例如 Linux Foundation 的 Model Openness Framework。兩者都面向同一種情境:不同專案會在具體開放哪些東西、以什麼條件開放,以及是否對使用設下限制等方面有所差異。不過 MOF 相當細緻,會圍繞整個開發生命週期中的 17 個組件替專案評級;G7 的願景則比較簡單。它根據五個組件定義四個層級:權重、部署程式碼、訓練程式碼、訓練資料,以及使用限制。
粗略來說,這些層級可以從最開放到最不開放描述如下:
- 開放資料的開源 AI(Open Source AI with Open Data):一切都是開放的,且採用 OSI 認可授權條款,包括程式碼、資料、權重與所有資產。
- 開源 AI(Open Source AI):可取得的部分是開放的;它可能包含、也可能不包含訓練資料,但必須包含完整訓練程式碼。
- 開放權重 AI(Open Weights AI):權重與程式碼可取得,且採用 OSI 認可授權條款,但沒有其他內容。
- 權重可取得 AI(Weights Available AI):權重與程式碼可取得,也開放供檢視,但因為使用限制或其他被禁止的限制,採用的授權條款不能被稱為開源。
產業能不能適應一種取決於滑動尺度、而不是固定是非題的開放定義,仍有待觀察。但它也沒有選擇。兩年的發展與討論,以及兩年與提議定義共處的經驗,並沒有讓我們更接近產業共識。然而,G7 國家在這份文件中,有意或無意地同時承認了這個事實、讓它變得不再重要,並隱含地提出了自己的替代方案。
任何單一定義的開源 AI 都面臨一個挑戰:它不可能同時滿足定義上的純粹派與務實派。前者指出,任何允許省略訓練資料的定義,實際上都是把開源這個詞授予一個永遠無法被獨立複製的專案。這個說法合理。另一方面,後者則指出資料集本身有許多問題,從資料授權的繁複難解,到這些資料集規模龐大所造成的實務不可行性。這些說法也合理。你可以讓其中一派對開源定義感到滿意,但無法同時取悅兩邊。
G7 的提案等於承認,這場辯論已經沒有結果。取而代之的是,就實質效果而言,G7 提議讓「開源 AI」這個詞退場,改以「開放權重」取代。
一方面,G7 的框架中確實不只一個,而是有兩個不同層級明確引用了「開源」這個詞。因此,這種退場並不是字面上的。開源 AI 的定義仍然存在。
但如果沒有任何主要的競爭性模型能符合這個定義,那麼這個定義還重要嗎?
兩週前,我們調查了一組龐大且具代表性的相關模型樣本。此後,我們又新增了幾個追蹤模型。快速檢視這批樣本的授權條款後,可以看出一些趨勢。在受調查的模型中,有 28 個是封閉的,因此與開放性討論無關。在樣本中剩下的 40 個模型裡,有一半是權重可取得 AI(非 OSI 認可授權),另一半是開放權重 AI(OSI 認可授權)。這也意味著,沒有任何一個是開源 AI,也沒有任何一個是開放資料的開源 AI。
要說清楚的是,確實存在一些邊界案例:IBM 發布了詳細的訓練文件與方法,但沒有發布程式碼。Meta 在 Llama 旁邊釋出了微調配方與腳本(llama-recipes),但同樣沒有發布程式碼。Deepseek 則可以說走得最遠,提供了強化學習訓練程式碼與蒸餾腳本,但沒有提供完整流程。因此,依照 G7 的定義,這些都不被視為開源 AI。
而在我們的樣本之外,也有一些模型提供資料、程式碼與權重,最明顯的是 AI2 的 OLMo 與 EleutherAI 的 Pythia。但相較於這裡追蹤的開放與封閉模型,它們並不特別具有競爭力,因此不納入考量。
簡單來說,G7 的提案一方面把開源 AI 的定義法典化,另一方面又同時讓它變得不再重要。於是,至少在未來真正開源的模型變得更具競爭力之前,「開放權重」會在預設狀態下成為事實上的專門用語。與其把開源 AI 的定義模糊到失去意義,一個新的、更具描述性的「開放權重」詞彙試圖緩解前一個詞的缺點;這很像當年「開源」之於「自由軟體」所做的事。
即使是像 G7 這樣具分量的組織,是否能推動外界採用它提出的框架,目前仍不清楚;而且也存在一個問題:產業術語應該由誰來定義,政府還是產業組織?但如果這項努力成功,而「開源」這個詞實質上被限縮回只描述原始碼,那可能會是最好的結果。希望從開放光環中受益的供應商,仍可使用一個與開源分開且不同的詞;如此一來,這個詞也能避免受到使用限制、缺乏訓練資料,以及其他違反開源定義原始精神與意圖的問題所污染。
在過去開源純粹派與務實派的辯論中,後者經常主張,如果開源定義太嚴格,就永遠不會被使用。
也許從一開始,錯誤就在於假設那是一件壞事。
揭露:G7 與 OSI 都不是 RedMonk 的客戶。
