大模型研發者是數據控制者麼？ ——基於OpenAI的觀察

作者：王融，騰訊研究院首席數據法律專家

圖片來源：由無界AI工俱生成

引言：以ChatGPT為代表的生成式人工智能技術正在以令人驚異的速度進化。隨著商用化序幕拉開，相關隱私和個人信息保護等數據合規問題（以下簡稱數據合規）進入公眾視野。但實際上，數據合規並不是AI行業面臨的新問題。妥善解決隱私和數據安全，贏得用戶信任，是任何一項應用取得成功的基本前提。相比於移動互聯網、雲計算、區塊鏈、自動駕駛等技術，我們更關注新一代AI在數據合規中的獨特問題。對於代表著新拐點、新範式的新一代AI，相關法律認定都還為時過早。

為此，騰訊研究院公眾號將陸續推出《生成式AI——數據合規的變與不變》系列文章，以開放設問方式，探討基於大語言模型AI生態的數據合規問題。討論沒有標準答案，更多提供觀察視角。

本期觀點摘要：

1. AI 行業生態仍在發展形成中，從目前浮現的商業形態看，生成式AI 市場主體大致可以區分為三類：一是基礎大模型研發者（如OpenAI, Deepmind），二是面向垂直行業的模型研發者（如彭博社，Aidoc），三是面向公眾提供內容生成的服務提供者，如近期火爆的ChatGPT。

2. 並非所有的市場主體都是數據合規法律框架下的義務主體，這需要根據業務場景、技術邏輯和法律規範來進一步確定：是數據控制者（data controller）,數據處理者（data processor）抑或是其他？當主體身份重合時，也需要基於不同業務流程匹配合規義務。

3. 模型研發者，在模型訓練階段有可能並不認定為數據合規上的法律主體（data controller）。以OpenAI模型為例，其不以個人信息處理為目標，雖然在龐大的數據來源中不可避免存在個人信息，但絕大部分是公開信息，處理活動存在合法性基礎。並且在從原始信息到訓練數據的加工過程中，個人信息成分不斷衰減。正如OpenAI所言： “我們希望了解世界，而不是了解個人。”

4.參考2014年歐盟“被遺忘權”案例中對於搜索引擎法律地位的分歧討論，“搜索引擎”在對原始網頁的處理過程中，並不應視為數據控制者。這對大模型訓練階段的法律定性具有啟發意義。

正在浮現的市場主體

生成式AI 行業生態正在快速發展形成中，規模龐大，主體呈現多樣化。根據已浮現的商業形態，生成式AI 市場主體目前大致可以區分為三類：

一是底層大模型研發者，包括OpenAI, Stability AI Google，Meta等，這些公司已發佈各自的底層模型。所謂大模型，是指基於大量數據訓練的、擁有巨量參數、展現湧現能力的模型。

二是面向B端各垂直領域\行業的模型研發者，例如[1]：

1. 醫療保健：Zebra Medical Vision ，Aidoc 等公司使用生成式AI 為客戶進行醫學圖像分析、診斷和治療規劃。

2. 製造業：通用電氣等公司利用生成式人工智能優化生產流程、預測性維護和供應鏈管理。

3. 金融服務：彭博社發布的Terminal AI大模型。基於GPT-3架構，可以處理金融領域的專業文本數據，提供金融智能化的服務。

4. 零售：Stitch Fix 等公司使用生成式人工智能來實現個性化購物體驗、股票管理和需求預測。

三是面向B端和C端個人用戶提供生成式AI應用的服務商，例如：

1.內容生成：Jasper、ChatGPTGPT-3 Creative Writing 等平台使用生成式AI 來創建書面內容，包括營銷文案、社交媒體帖子和其他書面材料。

2.語言翻譯：谷歌翻譯利用生成式人工智能在不同語言之間翻譯文本。

3.圖像和視頻生成：Midjouney , DALL-E等平台使用生成式AI 來創建合成圖像和視頻。

對於以上主體，適用現有的隱私數據合規框架可從兩個維度展開：一是區分業務場景（TO C/to B)，以明確法律主體身份，即是否是個人信息保護法中的個人信息控制者，處理者抑或是其他角色；二是區分數據處理的流程環節，以明確法律主體所適配的數據合規義務。當主體身份重合時，更需要基於不同業務流程劃分合規要求。以OPENAI為例，其既面向個人用戶提供ChatGPT服務，也將基礎大模型能力以API方式提供給專業開發者，在不同業務場景中，其所涉及的個人信息處理活動有著顯著的不同，這對於法律角色和合規義務有著直接的影響。

基礎大模型研發者是否是隱私數據合規框架下的data controller，是一個值得討論的問題。

區別於媒體大眾上關於AI數據合規的籠統討論，從專業視角審視，AI底層大語言模型研發提供者，有可能並不認定為隱私數據合規上的法律主體——數據控制者（data controller）。
數據保護法上所界定的數據控制者是指：能夠單獨或與他人共同決定個人數據處理目的和方式的組織或個人，其在個人信息處理活動中發揮核心決策作用，並對該決策負責。歐盟數據保護機構也認同：“控制者是一個功能概念，旨在根據事實影響分配責任”。控制者必須確定應為哪些預期目的處理哪些數據。換言之，控制者知道他在處理有關個人數據方面所做的事情，知曉正在處理的是以語義方式“與已識別或可識別的自然人有關的信息”，而不僅僅是計算機代碼。

但在大模型訓練中，並非如此。以OpenAI模型訓練為例，首先，其數據處理的主要目的是訓練模型形成語言理解、預測、生成能力,甚至是舉一反三的推理能力，而非處理個人信息目的。數據源的選取也主要是滿足語言生成方向。 OpenAI披露的數據源主要來自於公開信息。包括:維基百科、書籍、期刊、Reddit鏈接、Common Crawl和其他數據集。維基百科準確規範程度高，以說明性文字形式寫成，並且跨越多種語言和領域，有助於提升模型的精確性；書籍由小說和非小說兩大類組成，主要用於訓練模型的故事講述能力和反應能力；Reddit鏈接與Common Crawl則能較好覆蓋網絡公開信息，代表網絡流行內容的風向標，對輸出優質鏈接和後續文本數據具有指導作用[2]。從以上數據收集來看，其數據處理的主要目的是在於實現對語言表達的盡可能覆蓋，以提升模型語言輸出規範，無限靠近人的語言表述方式，而與個人信息處理目的相去較遠。正如OpenAi聲明：“我們希望我們的模型是了解世界，而不是了解個人。”[3]

其次，在海量原始數據資源中涉及的個人信息絕大部分是網絡上的公開個人信息。從以上數據源可知，在維基百科、書籍、學術期刊中的數據中，個人信息本身佔比較小，相對占比較多是通過Common Crawl獲取的數據。 Common Crawl 是一個非營利性組織，定期抓取互聯網公開網頁，並將這些數據存儲在Amazon S3 上，使得任何人都可以免費訪問和使用這些數據。目前，Common Crawl 的數據集已經成為自然語言處理、機器學習的重要數據來源之一，在促進全球研究和技術創新方面發揮了積極作用。

公開網絡中不可避免會包含相當數量的個人信息，但其中大部分應屬於已公開的個人信息，為實現個人信息利用與保護的平衡，包括我國在內的各國個人信息保護法對已公開的個人信息的利用均作出一定程度的豁免。例如：《個人信息保護法》第十三條第六項，將在合理的範圍內處理個人自行公開或者其他已經合法公開的個人信息作為數據處理的合法性基礎之一。類似的，歐盟歐盟《一般數據保護條例》（GDPR）把個人數據區分為一般個人數據與特殊（敏感）個人數據。依據該條例第9 條第1 款，原則上禁止對於數據主體的特殊（敏感）個人數據進行處理，但是同條也規定了例外情形，如果數據主體明顯地公開了（manifestly made public）特殊個人數據的，則數據控制者也可對之進行處理。在美國法上，更是乾脆將公開的個人信息排除在“個人信息”之外。例如：2018 年《加利福尼亞消費者隱私法》（CCPA）與2020 年《加利福尼亞隱私權法》（CPRA），均明確將“公開獲取的信息”（Publicly Available Information）排除在個人信息之外[4]。

最後，從原始信息到可供模型訓練的數據的過程中，個人信息的成分是不斷衰減的。從原始數據源到進入模型的訓練數據集，數據規模往往會縮小很多。據稱，GPT2021年的官方原始數據源是31億個網頁內容, 約320TB文字信息，但最終作為訓練數據的是753GB。這是因為原始數據源通常包含大量的文本信息，但其中很大一部分並不適合作為模型的訓練數據，需要經過清洗（去除無用的信息、錯誤數據和重複記錄、噪音數據等）、預處理（將文本轉化為數字向量）、劃分增強（將數據區分為不同訓練功能目）等一系列的加工過程，因此即使原始數據源中包含了部分個人信息，隨著這一加工過程，個人信息成分也會不斷衰減。此外，模型研發者為了進一步降低隱私和數據合規風險，在數據源中包含的個人信息（即使是公開個人信息）也會主動採取刪除、匿名化、或者用合成數據替代等措施。

如果參考2014歐盟“被遺忘權”判決中對於數據控制者的界定邏輯，模型研發者的法律身份問題將更值得商討。

儘管在歐盟“被遺忘權”判決中，作為搜索引擎的谷歌最終被裁定為“數據控制者”，但在案件過程中的討論爭議依然可以為今天面臨的新問題：如何確定大模型研發者的法律主體地位提供參考。

首先簡單回顧下歐盟“被遺忘權”案來龍去脈：1998年，西班牙《先鋒報》刊登了市民岡薩雷斯因無力償還債務而遭拍賣房產的公告。 2010年，岡薩雷斯發現，如果在谷歌搜索引擎輸入他的名字，會出現指向《先鋒報》關於其房產拍賣的網頁鏈接。岡薩雷斯認為這些信息已經過去多年，希望谷歌能夠刪除該鏈接。該案一直打到歐洲法院，歐洲法院隨後做出了轟動世界的“被遺忘權”判決：岡薩雷斯要求《先鋒報》刪除其個人信息的主張被駁回，因為這涉及乾涉新聞自由；但谷歌作為搜索引擎服務商，被視為1995年《數據保護指令》界定的數據控制者，對其處理的第三方發布的帶有個人數據的網頁信息負有責任，依據該判例，歐洲居民可以向搜索引擎申請在搜索結果中刪除有關個人的“不恰當的、不相關的、過時多餘”（inadequate, irrelevant, excessive）的網頁鏈接[5]。

判決發布後的爭議持續到今天，谷歌在建立線上“被遺忘權”申訴平台後，接到大量申請要求刪除相關新聞報導，這被觀察者認為是一種新形式的網絡審查。即使在歐盟內部，該判決很大程度上也在意料之外，因為在確立搜索引擎是否是歐盟數據保護法意義上的“數據控制者”(data controller)這一問題上，存在根本性分歧。

在“被遺忘權訴訟”最終判決之前，歐洲最高法院總法律顧問Niilo JÄÄSKINEN發布的法律意見書中，明確表達其不認同將搜索引擎視為數據控制者的主張[6]。他認為：在互聯網背景下，應區分三種與個人數據處理相關的情況。（1）第一種是在互聯網的任何網頁（“源網頁”）上發布個人數據元素。 ( 2 ) 第二種情況是互聯網搜索引擎提供的搜索結果將互聯網用戶引導至源網頁，（3）第三種是互聯網用戶使用互聯網搜索引擎時，他的一些個人數據，例如IP地址，關鍵詞的處理。其中第（1）和（3）的場景中的數據控制者不存在爭議，但就第（2）種情形，很有討論的必要。

搜索引擎索引、緩存和顯示信息的方式構成了對個人數據的“處理”，但這並不等於說它們構成了歐盟法意義下的“數據控制者”，並負擔數據控制者的合規義務。僅提供信息定位工具的互聯網搜索引擎不會對第三方網頁上包含的個人數據行使控制權。除了作為統計事實之外，服務提供商不會’意識到’個人數據的存在。對於搜索引擎而言，網頁可能包含個人數據，但這種存在是隨機的，包含個人數據的源網頁與不包含此類數據的源網頁之間並沒有在搜索引擎上的技術操作上產生差異。搜索引擎服務商也無法在法律上或事實上針對與第三方服務器上託管的源網頁上的個人數據履行有關的控制者義務……

這一邏輯對應當下大模型訓練場景是何其形似相比搜索引擎，大模型研發過程中，對於數據源中涉及的個人信息，更像是數據收集階段不可避免的附屬產品，而非研發者的初衷。相反，為降低隱私和個人信息風險，研發者還需投入大量精力，將其在數據源中刪除或者匿名化。

遺憾的是，在“被遺忘權”案例中，歐洲法院並沒有聽取總法律顧問的意見。最高法認為搜索引擎在業務運營過程中，會根據用戶偏好投放相關廣告，這構成了對於個人信息的處理活動，應履行數據控制者義務。在今天看來，這一判斷混淆了搜索引擎不同數據處理階段與對應的合規義務，如果將這一邏輯適用於大語言模型研發者，會出現令人尷尬的局面。因為就廣告投放而言，當前大模型的研發者，在其商業形態中恰恰排除了這一類模式。 OPENAI明確表示：我們不使用數據來銷售我們的服務、做廣告或建立人們的檔案。

正如總法律顧問在法律意見書中闡明：歐盟1995數據保護指令發佈時，互聯網剛剛起步，第一批搜索引擎開始出現，但沒有人能預見它改變世界的程度。因此，對新技術現像給與法律上的解釋時，必須考慮比例原則，有必要在個人數據保護、信息社會目標、市場主體以及互聯網用戶廣泛的合法利益之間取得相稱的平衡。

今天，我們再次面臨又一個即將改變世界的技術創新。大模型是未來智能的基礎設施，還是智能工具抑或它本身就是無處處不在的知識？尚未有確定性的答案。大模型研發者在數據合規上的身份屬性，則更是一個值得討論的問題。至少從大模型技術機理出發，將其認定為數據控制者的結論並沒有充分的邏輯閉環。當然，這並不否認研發者從負責任的AI出發，在研發階段對包括隱私在內的數據安全問題應予以高度關注，並儘可能將風險降到最低。

下篇預告：與大模型研發者不同，面向個人用戶提供生成式AI的應用服務商，其作為數據控制者（data controller）的法律身份相對確定，需要討論的是其數據合規工作的獨特問題。

參考資料來源:

[1]以下關於生成式AI生態市場主體的介紹，主要來自於ChatGPT4 問答，在此基礎上做了必要的檢查核實.

[2]Alan D. Thompson, What’s in my AI? A Comprehensive Analysis of Datasets Used to Train GPT-1, GPT-2, GPT-3, GPT-NeoX-20B, Megatron-11B, MT-NLG, and Gopher, https://lifearchitect.ai/whats-in-my-ai/, March 2022.

[3]https://openai.com/blog/our-approach-to-ai-safety.

[4]程嘯，《論公開的個人信息處理的法律規制》,載《中國法學》2022年第3期,第96頁.

[5]相關內容詳見：王融：被遺忘權很美？《中國信息安全》2016年08期.

[6]https://curia.europa.eu/juris/document/document.jsf?text=&docid=138782&pageIndex=0&doclang=EN&mode=req&dir=&occ=first&part=1&cid=321592

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

大模型研發者是數據控制者麼？ ——基於OpenAI的觀察

分析：比特幣30天期權Delta傾斜度飆升，表明市場處於極度恐慌中

比特幣價格接近130,000美元，分析師認為RTX、HBAR和XLM在BTC翻倍前可提供50倍收益

以太坊Microstrategy的結構性風險分析：基於最優淨資產價值

預計2050年XRP價格，XRPL每年銷毀98.5萬XRP

知名資管公司Point72與ExodusPoint披露持有Alt5 Sigma股份

當ETH找到新的支持級別時值得購買的山寨幣冷軟件和Shiba INU成為安全避風港

比特幣預測：哈佛經濟學家羅戈夫對驚人現象的深思

比特幣有兩名礦工攻擊51％攻擊的風險

大模型研發者是數據控制者麼？ ——基於OpenAI的觀察

Related Posts