川普政府的普查數據新制是一場政策災難

在閉門且缺乏專家意見的情況下,川普政府(Trump administration)針對普查數據(census data)的發布方式做出了重大政策變更。數據專家擔憂,這會導致與選區重劃(redistricting)、自然災害、勞動力、住宅等相關的公開數據可靠度下降。

6 月 4 日,川普政府發布了一項命令:統計產品的揭露規避(Disclosure Avoidance for Statistical Products),禁止統計產品「使用任何雜訊注入(noise infusion)」。該命令指出:「粗化(coarsening)應作為所有統計產品揭露規避方法的首選類別。」「抑制(suppression)則應作為最後手段,僅在法律禁止粗化,或粗化會實質上破壞統計產品的準確性或可用性時才可使用。」

在統計學術語中,雜訊注入是處理數據時一種常見且被接受的隱私保護技術:它在數據集中創造『模糊(fuzz)』或隨機值,使發布的統計數據與實際的敏感數據略有不同。粗化則是將數據分組和四捨五入的過程,或者是用範圍來呈現數據,而非可能識別出特定身分的具體細節。抑制正如其名:遮蔽資訊、用星號代替,或完全不發布數據。

美國國家公共廣播電台(NPR)的黃漢斯(Hansi Lo Wang)首先報導了這項政策變更及其影響。平時使用普查數據和進行統計分析的人士擔憂,限制普查局(Census Bureau)和經濟分析局(BEA,Bureau of Economic Analysis)發布數據的方式,將嚴重限制公眾最終能取得的資訊。

特別是來自小型社群與產業的數據,可能會受到此變更的嚴重影響。「因為『粗質化』(coarsening,即分組、四捨五入、以區間呈現)和隱匿(suppression)是該命令中唯一未被禁止的工具,這意味著為了確保資訊安全,人口普查局(Census Bureau)和經濟分析局(BEA)必須將小型物件(例如小型社群或小微企業類型)合併到較大的類別中,或者必須完全隱匿數據,」喬治城大學巨量資料研究所(Georgetown University's Massive Data Institute)資深研究員兼公共數據使用者協會(Association of Public Data Users)副主席貝絲·雅羅許(Beth Jarosz)在電子郵件中告訴我。「小型產業可能會被併入更大的產業類別中。小型郡縣可能會被併入郡縣群組,或者根本不予公布。」

6 月 17 日,五個團體——美國人口學會(Population Association of America)、聯邦統計專業協會理事會(Council of Professional Associations on Federal Statistics)、公共數據使用者協會(Association of Public Data Users)、校際政治與社會研究聯盟(Inter-university Consortium for Political and Social Research)以及人口中心協會(Association of Population Centers)——發表了聯合聲明譴責該命令。「這項命令顛覆了數十年來為促進透明度與公眾信任所建立的流程,並造成了以下局面:要麼我們的個人資訊隱私程度降低,要麼可用的數據變少,或者兩者兼具,」聲明中寫道。

美國統計學會(American Statistics Association)科學政策主任史蒂夫·皮爾森(Steve Pierson)撰文指出,該命令「在保護受訪者隱私所能採用的技術方面,束縛了人口普查局和經濟分析局的手腳。」

前普查局(Census Bureau)研究與方法論助理局長兼首席科學家 John Abowd,在 LinkedIn 上發布了一份清單,列出將受此命令影響的資料產品。這些產品包括 OnTheMap 應急管理系統,這是一個公開的資料工具,能針對受自然災害影響的地區提供即時的美國人口與勞動力統計資料;季度勞動力指標,其中包含就業、職缺創造與流失、薪資、聘僱等資料;商業創立與動態統計;退伍軍人就業統計;中學後教育成果相關資料,以及其他許多項目。這些資料產品中,有許多都使用了「雜訊注入」(noise infusion)技術,而川普的命令剛好禁用了這項技術。

此外,關於這項命令在實務上究竟要如何執行,也存在著混亂。「對於使用雜訊注入的資料集,目前尚不清楚這項政策會如何影響公眾的存取管道,」賓州大學圖書館研究資料與數位學術團隊負責人、同時也是 「資料救援計畫」(Data Rescue Project)的發起人之一 的 Lynda Kellam 在該命令發布後寫道。「這項政策預計會溯及既往,這引發了資料可能會被移除的疑慮,但具體會如何發展仍未確定。」

至少在最直接的後續影響中,我們已經開始失去一些公開資訊。正如 NPR 的 Wang 上週在 Bluesky 指出的, 該命令下達後,人口普查局(Census Bureau)網站上多個與「雜訊注入」(noise infusion)和「差分隱私」(differential privacy)相關的網頁遭到移除。這些網頁大部分在此後已陸續恢復。而在「數據救援計畫」(Data Rescue Project),由莉娜.波曼(Lena Bohman)領導的團隊一直主動收集並封存人口普查局的工作論文,並將其向大眾公開。

雅羅茲(Jaroz)表示,除了數據不可靠或缺失的風險之外,放棄長期以來達成共識的隱私保護方法,可能會損害大眾對人口普查數據的信任。「當人口普查局與經濟分析局(Bureau of Economic Analysis,BEA)收集數據時,他們向受訪者承諾會對回覆內容進行保密。當個人回覆《美國社區調查》(American Community Survey,ACS)或企業主提供關於員工或銷售額的資訊時,他們預期人口普查局和經濟分析局會保護這些資訊。如果拿走這些機構用來保護隱私與保密性的工具,人們可能會質疑人口普查局與經濟分析局是否能履行這項承諾,」她說。「同樣地,人口普查局與經濟分析局產出的資訊是為了公共利益。例如,人們回覆《美國社區調查》(至少在一定程度上)是因為這能造福他們的社區。如果新規則導致縮減了數據的發布與使用方式,這也會削弱信任,因此我們有必要對此做出回應。」

正如 Wang 指出的,由川普的政策副幕僚長史蒂芬.米勒(Stephen Miller)共同創立的法律團體「美國優先法律組織」(America First Legal),在去年的一起訴訟中,藉由質疑人口普查局的差分隱私系統,試圖強迫釋出新的 2020 年人口普查數據。法官裁定起訴已為時過晚,但他們已在二月重新提起該訴訟

正如 NPR 去年也曾報導,川普(Trump)與國會共和黨人一直在推動將在美生活且沒有合法身分的人排除在 2030 年的人口普查之外。「非法待在我們國家的人將不會被納入人口普查計算,」川普於 2025 年 8 月在真實社群(Truth Social)上寫道。這將會是對兩百多年來人口普查進行方式的一大劇烈轉變。選區重劃與傑利蠑螈(Gerrymandering,意指不公正的選區劃分)多年來一直是川普政府的重大戰場,並在 2026 年期中選舉前夕愈演愈烈,因為最高法院最近削弱了《投票權法》(Voting Rights Act),並允許進行更多有利於共和黨控制眾議院的選區重劃。

這項數據政策的改變,也是在川普政府裁撤南部人口普查模擬測試據點的背景下發生的。今年二月,美聯社(Associated Press)報導,政府正著手取消六個原定用於測試 2030 年人口普查新方法之據點中的四個。「人口普查局基本上是在對最需要測試的社群瞎子摸象——包括原住民保留地、網路連線受限的偏鄉地區,以及歷史回覆率偏低的地方,」人口資料局(Population Reference Bureau)副總裁馬克·馬瑟(Mark Mather)告訴美聯社。「你無法修正你沒有測試過的東西。」

延伸閱讀