從技術發展趨勢判斷,隱私計算終將走向軟硬結合的發展道路。
編者按:作者:高聲談,原文標題《深度解讀隱私計算》
11月1日,《個人信息保護法》已正式實施,而其對於社會各行業的影響還在持續發酵中,首當其衝是數據生命週期相關行業,不僅要對照個保法對既有做法進行調整與整改,更要承擔起提供行業基礎設施,引領全社會數據行業創新發展,提供解決方案的重任。其中有挑戰,更孕育著大量機遇。在此過程中不可忽視的一個技術領域就是隱私計算。
隱私計算是數據“可用不可見”的唯一解決方案
《個人信息保護法》對個人信息在收集、存儲、使用、加工、傳輸、提供、公開、刪除的生命週期各環節提出了原則要求,在解釋個人信息概念時提到“個人信息是以電子或者其他方式記錄的與已識別或者可識別的自然人有關的各種信息,不包括匿名化處理後的信息。”我們據此可以理解,匿名化處理後的信息不屬於個人信息,不需遵守個保法的相關規定。這令我們想起了數據在傳輸和使用環節“可用不可見”的指導思想,同樣體現了匿名化的原則。
如何實現數據傳輸的“可用不可見”和匿名化?隱私計算是當前唯一的解決方案。
何為隱私計算?
隱私計算是“隱私保護計算”(Privacy-preserving computation)的簡稱,根據“大數據聯合國全球工作組”的定義,這是一類技術方案,是“在處理和分析計算數據的過程中能保持數據不透明、不洩露、無法被計算方以及其他非授權方獲取”的一系列技術方案的統稱。根據中國信息通信研究院雲計算與大數據研究所的定義,隱私計算是在保證數據提供方不洩露原始數據的前提下,對數據進行分析計算的一系列信息技術,保障數據在流通與融合過程中的“可用不可見”。
大數據聯合國全球工作組成立於2014 年,由31 個成員國和16 個國際組織組成。早在2018 年,工作組就致力於促進各國多個統計局相互進行敏感大數據協作,是最早研究隱私計算的國際組織之一。 2019 年,該工作組出台了《聯合國隱私保護計算技術手冊》,以方便各國統計局以安全適當方式訪問新的(敏感)大數據源。
隱私計算的技術方案或技術路徑有很多:差分隱私、同態加密、多方安全計算、零知識證明、可執行環境、聯邦學習等,Gartner公司將上述技術路徑重新歸納為三類:
1.提供可信的環境來執行處理或分析;
2.在處理或分析之前轉換數據和/或算法;——數據加密再處置;
3.在不公開數據的情況下執行數據本地處理或分析;——數據不動模型動;
這便是可信執行環境、安全多方計算和聯邦學習三大技術路徑的由來。
隱私計算的作用?
隱私計算市場將在承接原有三方大數據市場基礎上,進一步激活全社會數據要素,實現“點到點”的“數據可用不可見”。因此,隱私計算承擔起《個人信息保護法》要求下數據傳輸環節的基礎設施或基礎工具的職能角色,具有巨大發展前景。
當前,我國的個人信息數據主要掌握在行業壟斷型企業、頭部互聯網平台、政府部委和各級政府委辦局、數據代理商手中,個人並不實際掌握自己數據的使用權。由於無法控制上述機構創建和使用個人自有數據,個人的數據所有權也很難主張。某些非國有機構,將其收集的數據看作企業自身資產加以運營,使用方式肆無忌憚,未考慮個人隱私保護,出現了大量市場亂象。
《個人信息保護法》出台後,上述亂象方才有所收斂。但由於個人數據的使用主動權尚掌握在B端企業手中,導致數據利用主觀動因存在“不願”、“不敢”、“不便”的痛點與難點。
-
不願——數據明文傳輸方式下,數據源頭企業擔心丟失數據所有權,這對於不具備持續生產源數據能力的企業表現尤其明顯。客戶對一家企業的產品或服務的粘性越差,企業對於持續獲取流量或數據的信心越發不足,越發擔心流量或數據被它人清洗所用。除此以外,由於數據複製成本極低,一旦分享出去就容易失去了對數據的控制權,因此數據明文獲取削弱了源頭廠商的數據稀缺性和分享動力,導致出現數據價值遞減風險。類似情況常發生在業務類型相近的同體量企業之間,例如頭部的互聯網企業之間數據交互非常少見。
-
不敢——往往因互信不足導致,這類情況最為常見。合作雙方或因合作目的不單純,或不清楚對方數據來源及使用的合規程度,或是不想暴露自身客群畫像等原因,缺乏合作誠意導致合作失敗。再有大量企業因為擔心數據安全事件或信息洩露而不敢交互數據。類似的情形常見於數據需求方(如銀行)與三方數據公司、消費貸聯合貸款合作雙方、數據源頭公司(如國資背景平台)與數據代理公司等。
-
不便——在涉及高度涉密數據或敏感個人信息隱私數據時,企業往往拿不准數據輸出尺度。更常見的是一些國有企業、事業單位手握大量數據,但因缺少專業認知、能力及相應激勵,缺乏數據交流的主動性。如醫療研究機構很難從醫院等醫療數據擁有方獲取病患數據,再如基於個人客戶地理位置的數據應用與交互等。
產生上述問題的根本原因是數據的明文傳輸,由於合作雙方可通過明文數據推演出對方數據資產狀態,獲得客戶觸達方式和敏感隱私數據甚至攫取對方流量資產,由此引發的敵意、不信任、不放心會極大影響數據交互雙方合作意願,進而影響了數據要素的流通與價值的盤活。
解決數據信任度問題其實有兩個思路:一是尋找信任中介,二是用科技手段實現加密和保密。
第一個思路與銀行等信用中介的產生機理相同,既然數據交互雙方相互不信任,那就找一個雙方都信任的第三方代為處理數據,並將數據交互結果以不透露個人及合作雙方隱私的方式返回。徵信牌照、大數據交易所就是這個思路。統一信任中介的實現方式需要大量的頂層設計以及製度和強制力的保障,但即便如此還是存在諸多缺陷。例如,如何解決數據提供方的激勵問題,以更大程度激活散落各地的“數據孤島”;再有,中心化一定意味著數據的標準化、統一化處理,由於每個行業或領域的數據結構的特殊性,需要建立多個行業或領域的數據統一標準,複製性差,現實可行性不高;其次,中心化的數據處理方式難以滿足個性化業務需求,且交互效率往往較低,升級迭代和數據維護成本過高。
第二個思路可以統稱為隱私計算,是利用技術手段實現數據不透明、不洩露和不可反推復原,可實現“點對點”的數據交互。
針對匿名化問題,隱私計算由於可以控制原始數據不出本地,只輸出切片、標籤化、脫敏後的梯度和參數等信息,從而成為滿足匿名化“不可識別、不可複原”。這個前提下,也自然滿足“最小必要原則”,同時以匿名化為基礎的聯合建模也會大幅減輕參與雙方獲得用戶重複授權帶來的負擔。隱私計算原始數據不出域、只傳遞梯度等數據的特指也有助於滿足《數據安全法》和《網絡安全法》等要求的安全保護義務,也有助於控制數據洩露的風險,進而減輕數據主體的顧慮,充分挖掘數據的流通價值。
與中心化信任中介相比,隱私計算適配性高,通用性強,使用方式只因數據類型及交互目的的不同而不同,不受行業或場景限制(數據交互的目的可以抽象歸納為求交集、特徵工程、聯合統計分析、匿名查詢、聯合建模等少數幾種)。 “點對點”對接降低了數據互聯互通成本,整體上有利於數據供給側匯集的豐富度和覆蓋度;同時,“點對點”的交互方式效率更高、支持個性化需求,如輔以較好的激勵機制,更容易挖掘、盤活“碎片”數據資產,進一步激發、激活數據數據市場活力。
隱私計算與行業或區域數據信任中介的發展思路並不衝突,在明碼交易導致數據洩露後果愈發嚴重的當下,數據信任中介也需要運用隱私計算技術解決自身安全問題。由於數據信任中介(如徵信牌照或大數據交易所)只是數據的行業或地域集中,不同行業、地域之間同樣存在不信任、不願的負面因素,甚至信任中介主體股東背景、做法等多種因素會導致其客觀中立身份存疑,也會影響數據供給方的接入意願。
春天有多美?
從隱私計算應用領域看,目前主要應用在金融行業,並少量輻射地方政務數據和醫療行業。個人判斷,未來1-2年,隱私計算將全面承接原有的三方大數據市場,成為該領域的基礎設施。其中涉及金融行業中徵信應用的部分,受《徵信業務管理辦法》影響,持牌機構將佔領市場主導。對於非徵信的數據應用,如客戶識別、數據營銷、精準運營、輔助催收等領域,基於隱私計算的“點對點”數據交互方案將具有較大市場空間。
至於市場空間,在騰訊銀行和畢馬威聯合發布的《隱私計算行業研究報告》中預測,我國隱私計算系統的銷售和服務收入規模在三年之內有望觸達100-200億元的市場空間。我們採用另外一個邏輯推算。僅以數字風控廣泛應用的線上消費貸和信用卡貸款市場為例,2020年我國銀行業信用卡放貸總額約為19萬億元,銀行業個人消費貸款全年放款總額約6.5億元(含互聯網平台助貸和聯合貸),合計25.5萬億元。按照數據及附加費用在放款額中佔比千分之五的保守比例推算,隱私計算和數據費用加總收入可實現125億元收入。我們假設隱私計算在其中收入分成為10%,僅個人線上消費信貸和信用卡兩個領域,未來1-2年就會為隱私計算帶來數十億元的市場空間。
本人則對隱私計算的長遠發展潛力更為看好,伴隨數據這一生產要素在我國經濟社會資源匹配中的作用的進一步發揮,作為基礎設施和必選工具的隱私計算技術將深入滲透至政務、醫療醫藥、線上服務營銷、輔助催收等行業,將會廣泛應用於各行各業的線上數據交互環節。未來十年極有可能發展成為千億級規模市場。
與此同時我們注意到,隱私計算技術很難形成一個獨立市場,其一定是與數據源市場強綁定,還可能與區塊鏈技術、邊緣計算技術充分融合,發展形成一整套數據交互產品體系。
我們知道,隱私計算有三大技術路徑,分別是多方安全計算(MPC)、聯邦學習(FL)和可信執行環境(TEE),下面分別介紹。
多方安全計算
多方安全計算(Secure Multi-party Computation,MPC)是中國人的驕傲,由姚期智院士1982年提出並解答百萬富翁問題時創立,是現代密碼學的一個重要分支。 MPC是指在無可信第三方的情況下,多個參與方共同計算一個目標函數,並且保證每一方僅獲取自己的計算結果,無法通過計算過程中的交互數據推測出其他任意一方的輸入數據。
MPC是基於密碼學的算法協議來實現隱私計算目的,可以看作多種密碼學基礎工具的綜合應用,凡可用於實現多方安全計算的密碼學算法都可以構成多方安全協議。除秘密共享、不經意傳輸、混淆電路、差分隱私等密碼學經典計算協議外,同態加密、零知識證明等密碼學算法都可以構成多方安全計算協議。為解決特定問題(如聯合統計、聯合查詢、聯合建模、聯合預警等),不同的技術人員或公司有時會採用不同的算法設計多方安全協議,雖然都屬於多方安全計算範疇,但技術性能和優劣勢有所差異,需要結合問題具體分析。 MPC可與可信執行環境等硬件隱私計算技術結合進一步強化安全性。
MPC特點和優劣勢如下:
-
MPC具有很高的計算安全性,要求中間計算結果也不可洩露,經過大量學術界、工業界的檢驗,可信性很高。
-
MPC技術包含複雜的密碼學操作,計算開銷大,性能損耗大;效能往往受到網絡帶寬、延遲等因素制約;採用硬件加速技術或與TEE技術結合是提高性能的主要手段。
-
不同安全計算協議下的加密數據不互通,協議間兼容性不強。
從實際使用情況看,商用化落地程度較高的計算協議是秘密共享和同態加密。秘密共享計算效能比較高,應用產經範圍廣,但無法解決數據缺失值、非連續數據標籤等問題,需要花費較大精力、按照一定標准進行事前數據治理。同態加密對數據不挑剔,但受限於計算因子數量,只能完成較為簡單的計算操作,對於聯合建模等複雜工程適用性不強,應用場景受到一定限制。除此以外的不經意傳輸、混淆電路、零知識證明等算法均存在較大的實操問題,實際應用較少。
聯邦學習
聯邦學習是一種新興的人工智能基礎技術,最早於2016年谷歌提出,後經香港科技大學和微眾銀行楊強教授團隊擴展為B2B分佈式聯合建模架構,進而發展成為當前數據安全環境下不同機構間聯合建模的主流技術。
聯邦學習(Federated Learning,FL)的核心原理是:由每一個擁有數據源的機構訓練一個模型,而後將各自模型相關信息(模型的權重更新和梯度信息)採取加密的方式反復交互優化,最終通過模型聚合得到一個全局模型。已訓練好的聯邦學習模型不共享,分別置於各參與方,在實際使用時共同配合形成預測。上述過程,每一個參與方擁有的數據都不會離開該參與方,其特點可以總結歸納為“數據不動模型動,數據可用不可見”。
根據參與方數據的特徵空間和样本ID空間分佈情況不同,聯邦學習分別有三種方法予以適配:縱向聯邦、橫向聯邦和聯邦遷移學習。如各參與方數據特徵是對齊的,但數據樣本重合度不高,橫向聯邦學習較為適用;如各參與方數據樣本是對齊的,但數據特徵重合度不高,縱向聯邦較為適用;如數據樣本和數據特徵重合度都不高,聯邦遷移學習更為適用。
為增加聯邦學習的安全性和隱私保護,多方安全計算、同態加密和差分隱私等保密算法也被融合進聯邦學習,應用於防範重構攻擊、模型反演攻擊、成員推理攻擊、特徵推理攻擊等安全事件。 FL也與可信執行環境等硬件隱私計算技術結合進一步強化安全性。
FL特點和優劣勢如下:
-
因聯合建模而生,因此在多方復雜計算和預測場景中應用廣泛。
-
最大優勢是數據不出域,僅是模型計算信息交互,且同樣運用多方安全等加密算法,市場接受度高。
-
各參與方服務器之間反复溝通對通信連接穩定性和帶寬提出較高要求。
-
相較於明碼交互下的模型效果略差;有時不同參與方數量不均的訓練樣本或數據間非獨立同分佈等情況,可能會導致模型效果偏差甚至訓練失敗。
-
惡意破壞建模會損害整個系統及模型性能,甚至深度參與方對梯度的惡意反推會帶來隱私洩露風險。
可信執行環境
可信執行環境(Trusted Execution Environment,TEE),通過軟硬件方法在中央處理器中構建一個安全區域,保證其內部加載的程序和數據在機密性和完整性上得到保護。可信的中央處理器一般是指可信執行控制單元已被預置集成的商用CPU計算芯片,無法後置,因此,只有新研發的部分芯片支持TEE。目前主流的TEE技術以X86指令集架構的Inter SGX和ARM指令集架構的TrustZone為代表,國產芯片廠商如兆芯、海光、飛騰、鯤鵬起步稍晚,芯片處理性能略差。
TEE基礎原理:將系統的硬件和軟件資源劃分為兩個執行環境——可信執行環境和普通執行環境。兩個環境是安全隔離的,有獨立的內部數據通路和計算所需存儲空間。普通執行環境的應用程序無法訪問TEE,即使在TEE內部,多個應用的運行也是相互獨立的,不能無授權而互訪。
TEE特點和優劣勢如下:
-
與MPC和FL純軟件的解決方案相比,TEE不會對隱私區域內的算法邏輯語言有可計算型方面的限制,支持更多的算子及復雜計算,可實現聯合統計、聯合查詢、聯合建模及預測等多種計算,業務表達性更強。
-
利用TEE計算度量功能,可實現身份、數據、算法全流程的計算一致性證明,解釋性和邏輯可信度高。
-
支持多層次、高複雜度的算法邏輯實現,運算效率高。
-
硬件的可信度是中心化的,芯片設備廠商聲譽及產品安全的可信度決定了技術路徑的可信度。
-
基於國外芯片的TEE解決方案會遇到信創挑戰,硬件的升級改造相比軟件成本更高。
-
目前的TEE解決方案尚未完全解決側信道攻擊問題,為進一步提高安全性,TEE常結合多方安全計算等密碼學算法來實現加密。
三條技術路徑的分析與展望
一、三條技術路徑的融合發展和綜合運用是大勢所趨
三條路徑各有優勢和擅長領域,現實中我們看到的大致趨勢是:MPC較多運用於聯合數據分析與統計、建模初期數據對齊與準備、聯合查詢與拒絕等數據策略應用等環節;FL在多方數據的深度交互與應用的聯合建模環節佔領主導地位,但出於安全保密需要大都結合MPC加密技術進行升級改造;而TEE為解決自身硬件安全問題也有必要與軟件解決方案結合提高安全保護係數。從實操方面看,三者兩兩融合的產品應用形態已經出現。
沒有絕對的數據安全,只有相對的數據安全。三條路徑作為數據安全的防護和加強手段,始終伴隨著攻擊和破解手段的不斷升級而自我革新與相互融合。實際上,三條技術路徑只是很多加密算法和技術手段的匯總叫法,具體算法和技術都有公開論文甚至開源代碼,之間的交叉應用對於專業人員來說門檻並不高,具體結合已經十分普遍。以至於Gartner(高德納,全球最具權威的IT研究與顧問諮詢公司)將集成三種技術路徑組合運用的隱私增強計算(PET)列為2020年隱私技術成熟度曲線,並認為其構成了未來幾年的一致性發展趨勢。
二、行業呼籲技術互聯互通,短期內多方集成是首選路徑
技術互聯互通主要是指各隱私計算廠家產品之間。雖然隱私計算能夠融通數據孤島問題,但是不同廠家之間、不同技術平台與路徑之間由於相互不兼容,反而產生了技術孤島問題。比如國內外知名的開源項目各自發展,互不兼容,不同廠家之間更是如此。因此,行業普遍呼籲技術互聯互通。該項工作主要由信通院(中國信息通信研究院)下轄的“隱私計算聯盟”牽頭主導。
跨平台的技術互聯互通當前主要解決各平台自治帶來的異構性,如信任基礎不一樣(包括對管理方法的信任和對技術方法的信任),平台之間身份認證體係不統一,以及各平台使用的技術方案和計數原理不相同等。解決跨平台技術互通互聯問題首先需要解決不同技術路徑的行業技術標準問題,據了解,信通院已開始組織實施標準制定工作。
即便如此,行業的互通互聯還存在合作意願問題,應該是一個漫長的過程。短期內,針對需求方的現實可行的解決方案是多方集成。多方集成是指將多個產品解決方案集成於一處,為數據或模型需求方提供一體化解決方案,解決其因數據鎖定技術路徑或不同路徑普遍嚐試等帶來的多頭採購或重複採購問題。
多方集成有兩個思路:一是雲端集成,鑑於當前云市場主要廠商阿里系和騰訊系均有自研的隱私計算產品,因此是否開放集成,准許同台競爭存在未知,可以關注華為雲的市場佈局。二是硬件集成,由於技術融合出現硬件化的發展趨勢使得硬件集成更具現實操作性,緊貼客戶側的軟硬件集成廠商可以整合隱私計算產品於一套硬件設備,甚至可以整合產品界面進一步提升操作體驗。多方集成孕育著巨大商業機會,可能成為隱私計算商用化的重大推手。
三、基於硬件的隱私計算發展賽道更加性感,理由如下:
-
從技術發展趨勢判斷,隱私計算終將走向軟硬結合的發展道路。當下有兩個趨勢:一是受計算效率、性能等因素影響,MPC和FL出現加速硬件的解決方案;二是隨著國產芯片性能的不斷提升並支持可信環境協議,基於國產芯片的TEE解決方案已經出現,並必將因其理念易接受、計算效能高等特點在市場競爭力佔領一席之地。
-
作為目前唯一的硬件解決方案,其與MPC和FL的技術融合和場景應用均不衝突,可以相互加強。
-
拓展了國產芯片的應用範圍和產品生態,助力信創產業的振興發展。
-
隨著民眾數據保護及維權意識的不斷提高,基於物理設備終端計算的數據不出域將成為未來數據存儲與使用的常態。而分佈於海量終端的、分散的、高並發的“邊緣計算+隱私計算”是可靠解決方案。這一方案是以終端設備硬件計算能力為依託的,這也正是TEE被廣為看好的主要原因。
四、從行業應用看,數據傳輸的合規性改造是主要市場切入點
毋庸置疑,金融行業是目前數字化、商業化運行程度最高的行業之一。目前以數據模型驅動的線上風控、智能營銷為主的三方大數據市場已經形成了百億元的市場規模。 《個人信息保護法》的出台對現有數據存儲、使用、管理尤其是傳輸交互形態進行了重新定義,輸出傳輸的合規化改造成為行業普遍痛點問題,亟需行之有效的解決方案。
除此以外,數據治理和數據中台建設是隱私計算的基礎,隱私計算也可以融進數據治理項目或數據中台建設項目中,為數據需求方提供進一步解決方案。
五、數據源頭廠商的覆蓋度是隱私計算廠商的核心競爭力之一
數據傳輸涉及供給方和需求方,當前所有隱私計算技術方案均需進行數據治理並部署加密節點。因此,僅提供隱私計算加密解決方案無法滿足需求方的全部需求,還需進一步引入可用數據源形成一站式解決方案。在此基礎上,隱私計算安全性、計算效能、產品體驗等產品性能固然是公司的核心競爭力,同時對可用數據源廠商的覆蓋度,同樣決定了隱私計算產品的可用性,是公司的同樣重要的核心競爭力。
展開全文打開碳鏈價值APP 查看更多精彩資訊