來源:肖颯lawyer
上個月,義大利隱私監管機構Garante推出的調查結果認為,OpenAI公司存在一項或多項違反歐盟法規的行為,ChatGPT用於收集用戶資料的技術已經違反了該國的隱私法。掀起生成式人工智慧熱潮的ChatGPT再次陷入資料合規風波。
數據和算力是生成式人工智慧的核心。資料安全是生成式人工智慧合規的核心問題,在人工智慧對數據日益增長的依賴性的背後,生成式人工智慧秘密收集數據,對「知情同意」原則和「最小必要」原則帶來了嚴重挑戰。同時,生成式人工智慧在運作階段包含著龐大的資料外洩風險。這對個人資訊的保護帶來了嚴重威脅。颯姐團隊今天就談談生成式人工智慧對個人資訊安全帶來的挑戰與合規要求。
01 語料庫資料的收集與使用
根據資料來源,大致可將涉個人資訊的資料分為涉及個人資訊的語料庫資料以及涉個人資訊資料的使用者上傳的資料。
生成式人工智慧對資料具有高依賴性,需要大量的資料來滿足訓練要求。這決定了,生成式人工智慧往往會主動收集、處理公開和非公開的數據,預訓練數據的規模通常可以達到數十億甚至上百億個參數量。若其中有個人資訊,根據《個人資訊保護法》第27條的規定,「個人資訊處理者可以在合理的範圍內處理個人自行公開或其他已合法公開的個人資訊;個人明確拒絕的除外。個人資訊處理者處理已公開的個人資訊,對個人權益有重大影響的,應當依本法規定取得個人同意。」《生成式人工智慧暫行管理辦法》第7條也強調,「生成式人工智慧服務提供者(以下稱提供者)應依法進行預訓練、優化訓練等訓練資料處理活動,遵守以下規定:…(三)涉及個人資訊的,應取得個人同意或符合法律、行政法規規定的其他情形。 「然而,由於資料庫資料規模過於龐大,逐一獲得資訊主體的同意這項要求難以實現。
既然取得資訊主體的同意這一條路難以走通,那麼直接把資料庫中的個人資訊刪掉可以嗎?這也存在困難。一方面,目前缺乏有效的個人資訊清洗演算法,存在一定的技術悖論;另一方面,資料庫規模之巨大導致人工清洗資料的成本極高,且存在個人資訊二次洩漏的風險。有研究指出,基於命名實體識別的資料清理技術,臨床健康資料的回想率為97%(姓名)和80%(護理單位編號)。換言之,在語料庫、資料庫中存在個人資訊的情況下,在訓練階段,個人資訊的清洗效果較差,科技公司有合規風險。颯姐團隊提醒,科技公司在使用語料庫資料進行訓練時,應盡量選擇不包含個人資訊的資料集,同時盡可能提升辨識演算法的準確性,對辨識的個人資訊進行匿名或裁切。在審核端採取機器過濾機制加人工審核機制,也是利大於弊的合規措施。
02 用戶上傳資訊的收集與使用
用戶上傳資料可分為「積極投餵的資料」及「用戶消極投餵的資料」。所謂用戶積極投餵的數據,係指用戶為獲得生成式人工智慧的回饋而上傳的特定數據。所謂用戶消極投餵的數據,係指用戶為使用含生成式人工智慧演算法的應用程式或裝置的其他功能而上傳的數據。
生成式人工智慧的運作通常需要用戶主動「投餵」一定的數據,再基於演算法進行分析、回饋。在這過程中,人機互動資料將被加以記錄、儲存和分析,並可能成為模型演算法更迭訓練的資料。但在服務提供者未盡提示義務、使用者缺乏安全意識等情境下,使用者投餵的資料中很可能包含使用者個人外觀、住址、聯絡資訊等個人資訊。生成式人工智慧複雜的服務模式與多元的應用場景加劇了這一風險。隨著數位科技的發展,使用者的身分與其聯絡方式、人臉資料、指紋等深度綁定,而生成式人工智慧常會收集到大量個人資訊。例如,某AI公司的知名聊天機器人程式應用範圍涵蓋教學、科研、金融、傳媒和娛樂等眾多領域,用戶與其進行的聊天記錄中包含大量敏感信息,如個人身份、偏好、習慣等。這些資料若落入不法之手,將導致個人隱私遭侵犯、身分盜用、金融詐欺等風險,對用戶造成直接損害。
此外,生成式人工智慧的使用場景廣泛,常被嵌入各大應用程式乃至裝置中。例如,今年1月,某瀏覽器已宣布引進3大生成式AI能力,某公司已推出全球首款搭載生成式人工智慧技術的智慧型手機。即使未使用生成式人工智慧技術,使用者在使用相關應用程式乃至裝置時,不可避免地將產生、上傳數據,而數據中很可能存在涉嫌個人資訊的內容。
《生成式人工智慧暫行管理辦法》第十一條規定,「提供者對使用者的輸入資訊和使用記錄應依法履行保護義務,不得收集非必要個人信息,不得非法留存能夠識別使用者身分的輸入資訊和使用記錄,不得非法向他人提供使用者的輸入資訊和使用記錄。提供者應依法及時受理和處理個人關於查閱、複製、更正、補充、刪除其個人資訊等的請求。」 《個人資訊保護法》《兒童個人資訊網路保護規定》等法律法規對資料儲存的期限制定了強制規定。基於此,用戶主動投餵的涉嫌個人資訊的這類資訊是否可以被服務提供者記錄、儲存以及儲存的期限是有待商榷的。
同時,這類資訊是否能被用於訓練演算法也存在一定爭議。 《生成式人工智慧暫行管理方法》第7條強調,「生成式人工智慧服務提供者(以下稱為提供者)應依法進行預訓練、最佳化訓練等訓練資料處理活動,遵守以下規定:…(三)涉及個人資訊的,應取得個人同意或符合法律、行政法規規定的其他情形。」初次使用獲得的使用者授權不足以涵蓋演算法訓練階段資料使用的要求,科技企業必須有更明確的使用授權,或在符合法律法規的規定的其他情形的情況下,才能利用這類數據,否則可能會觸犯民法、行政法甚至刑法的相關規定。但是,即使獲得了用戶的明確授權,生成式人工智慧的運作階段存在巨大的資料外洩風險,科技公司只有在確保資料的安全性的情況下,才可對涉個人資訊資料加以利用。
為了提高生成質量,許多科技公司會想盡力豐富資料保有量,提高資料聚集度。例如,某AI公司的《隱私權政策》第2條標明,「我們可能會對個人資訊進行匯總或去識別化處理,使其不再用於識別您的身份,並使用此類資訊來分析我們服務的有效性、改進和添加我們服務的功能、進行研究和其他類似目的。」這是一個可行的方案,但是,根據「知情同意」原則,服務提供者承擔告知義務,即服務提供者需將被收集的資料對象、資料用途和可能存在的風險等提前向資訊主體說明,並在取得資訊主體同意後才能實施收集行為。同時,科技公司應提供使用者拒絕使用其個人資訊的選項,而不應將該條款變為僵硬的、強制性的通知條款。此外,根據「最小必要」原則,科技公司收集的涉個人資訊應採取與實現目標相關的、影響最小的方式,明確、具體地收集用戶的個人資訊。
03 寫在最後
與傳統人工智慧相比,生成式人工智慧往往有更強的資訊收集主動性與更高的資料濫用風險。生成式人工智慧需要持續透過大規模的語料庫、資料集來強化情境理解能力,以不斷升級和優化自身,在包括資料收集、資料儲存、資料處理和資料產生的生成式人工智慧運行各階段內,不可避免地會涉及許多人資訊、產生許多法律與合規風險。而大數據時代個人資訊的內涵與邊界的模糊化、法律法規的滯後性與對技術成果的追求,也導致部分科技公司忽略了此類風險。颯姐團隊提醒,合規是產業健康發展的前提與保障,追求成功的同時切勿對法律紅線掉以輕心。