隱私計算正站在數字經濟的十字路口。
摘要
√ 隱私計算正站在數字經濟的十字路口。經歷了2019年的技術普及和市場教育階段、2020年的大規模概念驗證和試點部署階段之後,2021年隱私計算進入真正嘗試規模化應用的階段。
√ 2021年上半年以來,隱私計算廠商正在進入大規模市場推廣階段,市場活躍度大大提升。對公眾來說,這一時間窗口正是了解隱私計算領域發展狀況與未來趨勢的好時機。
√ 通過對部分隱私計算頭部廠商的深度調研訪談、參與隱私計算研討活動,零壹智庫&天冕科技總結了隱私計算技術目前的七大發展趨勢。
作者: 溫泉萬雲軒;原文標題:《隱私計算:2021年中七大技術趨勢展望》
目錄
一、隱私計算性能將有百倍提升,這將使得隱私計算逐漸進入更多場景
二、隱私計算的安全性,將越來越體現為全鏈路的安全
三、在場景應用中,貼近用戶側的服務商優勢正在凸顯
四、部署模式逐漸簡化,比拼服務的趨勢更加明顯,可視化將成為標配
五、在場景應用的比拼,不僅是對業務洞察的比拼,也是硬核科技的比拼
六、開源正在成為潮流
七、互聯互通已經提上日程
一、隱私計算性能將有百倍提升,這將使得隱私計算逐漸進入更多場景
對隱私計算的大規模商業化應用來說,隱私計算性能的提升至關重要。因為它決定著隱私計算的數據處理效率,進而決定著隱私計算進入實際應用場景的可行性。
隱私計算的運行性能,受到數據、算法、算力等多維度因素的影響,在每個維度上均有提升的空間,其中算力性能是最難提升、最大的瓶頸。
目前,在隱私計算性能提升方面,從全行業來看,市場表現較為出眾的有星雲Clustar等。星雲Clustar目前可以做到使微眾銀行聯邦學習開源平台FATE的性能提升50—70倍,未來通過軟硬件、芯片等的優化可以將隱私計算性能提升至FATE平台的100倍以上。
星雲Clustar對隱私計算性能的優化方案,主要是集中在算力方面。因此,未來整體來講,隱私計算的性能將有百倍以上的提升,這個“百倍”是相對於微眾銀行聯邦學習開源平台FATE目前能夠達到的水平而言的。
未來,性能的進一步提升,意味著隱私計算將可以進入更多的應用場景——使得原來在性能較低情況下運行隱私計算所需時間較長的場景,未來所需時間進一步縮短,從而在實際中應用隱私計算變得可行。
但是,需要指出的是,性能的提升可能不是一蹴而就的。一方面,性能的提升需要大量的資金投入,對許多團隊來說,需要兼顧商務落地與技術提升,即邊賺錢、邊研發,因此這將是一個根據實際需求的漸進的過程;另一方面,性能的提升也是由需求拉動的。隱私計算目前尚處於市場開拓初期,應用場景比較簡單,處理數據量還不大,未來應用越來越多,需要處理的數據規模越來越大,對算力、性能的需求會更強。
二、隱私計算的安全性,將越來越體現為全鏈路的安全
隱私計算技術發明的初衷,便是服務於各方隱私在合作中不被洩露,而最關鍵的目標就是隱私數據的安全性。
隨著行業進一步的發展,安全性已經不僅僅停留在單一方面,而是體現在整個隱私計算數據對齊、建模、模型部署以及數據調用全鏈路的安全上。從隱私技術各環節上來看,全鏈路安全可以概括為數據安全、密碼安全、模型安全、協議安全。
數據安全,是指對數據從包括存儲、使用、回收在內的全生命週期進行必要的安全管理,這也是一個隱私計算領域的安全的關鍵挑戰。
密碼安全,是指基於密碼學方法的隱私計算安全協議所涉及密碼算法在強度、可用性、人為洩露風險、規範性、場景實用性等多方面的安全。建立於密碼學機制的隱私計算技術一旦在其中任何一個環節出現問題,造成密鑰破解或者洩露導致技術失效,都將造成隱私信息洩露的不良後果。
模型安全,是指針對數據訓練模型的保護,使模型在傳輸、訓練、訪問等過程中的安全性。隨著行業發展,由於大多數企業現在使用第三方開源平台進行本地化改進,而在開源軟件中出現了植入病毒、惡意上傳虛假錯誤數據與模型偷取等攻擊性行為,會造成模型受損,這在目前也成為了模型安全的一大威脅。
協議安全,是指包括聯邦學習、秘密共享、混淆電路等在內隱私計算安全協議是否能夠完成不同場景應用下的安全假設。由於不同技術應用於各個場景下的對像不一致,每種技術的協議安全假設強弱不一致,一旦不在使用中針對性地調整協議安全假設強度,很容易造成安全性問題。一旦整條鏈路中任何一個環節出現問題,不論在技術環節技術有多完善,都無法實現隱私計算的安全性,無法完成保護數據隱私的目的。
據零壹智庫了解,在全鏈路安全上,密碼安全、模型安全與協議安全方面的工作做得相對比較好。國家密碼管理局認證的底層算法等密碼學技術對於基本的密碼安全提供了保障,而協議安全與模型安全在技術方面已經在實地場景得到驗證,可以在現有技術支持上實現基本的安全。
目前,行業內主要關注點在於數據在使用全過程中不產生洩露,比如數據交換時如何實現最小程度的洩露,使其達到無法反推原始數據的程度。目前包括螞蟻等隱私計算頭部公司正在從技術上解決這一難題。而在政企合作等場景的數據交換上,各行業尚未實現互聯互通,沒有統一標準。相關機構,如中國人民銀行旗下的金融標準委員會也在針對金融行業製定統一標準。
三、在場景應用中,貼近用戶側的服務商優勢正在凸顯
隱私計算,未來將不僅是一個IT系統,還是一個應用平台。
這二者在商業邏輯上有所區別:IT系統,以往在應用中的最終價值,是幫助使用方節省成本;應用平台,則可能對使用方有提升業務的作用,可以幫助提升收入。
隱私計算的作用更偏後者,其根本價值,主要是使得機構能夠將內外部數據結合起來對用戶進行分析,從而提升收入。
目前,零壹智庫在調研中看到的一個趨勢是:由於隱私計算的這種應用價值,在場景應用中,貼近用戶側的服務商優勢正在凸顯,由於其對場景的深入理解,疊加隱私計算之後,他們能夠讓隱私計算技術更快地被場景接受。
比如,在零壹智庫深度關注的金融領域,金融風控服務商在用戶側優勢正在凸顯,天冕科技就是典型案例。
天冕科技的母公司WeLab匯立集團於2013年在香港創立,運營亞洲首批持牌虛擬銀行——香港匯立銀行及其他純線上消費金融服務,並於2014年進入內地。天冕科技是WeLab匯立集團旗下一站式金融科技服務商。初創之時,WeLab匯立集團致力於改革傳統藉貸服務,運用互聯網創新技術及大數據分析,為有資金需求的年輕人提供便捷的金融服務。
過去八年,WeLab匯立集團已經擁有近5000萬用戶以及超過700家企業客戶。 WeLab匯立集團自主研發的大數據風控系統WeDefend在業界已經樹立了品牌。中國郵儲銀行的首個互聯網信貸產品“郵e貸”正是與天冕科技合作推出。
目前,在用戶側,天冕科技已經與10多家金融機構建立了合作,合作的內容主要是聯合數據提供方,在各方數據不出私域的情況下,進行聯合風控建模和聯合營銷。
比如,在風控場景上,WeLab匯立集團採用線上聯邦學習系統,篩選了多家數據徵信公司相關性較高的特徵,進行聯合建模,建立一個泛化能力更強的模型,取得了更好的效果。 KS提高5%,壞賬有所下降。
圖1 天冕科技聯合風控案例圖
在營銷場景案例上,天冕科技助力某頭部互金公司提升營銷效果,因為其存在單獨使用現存自有數據特徵或者對方評分只能達到收支平衡,而且使用線下聯合建模方式容易洩露用戶數據的風險。在使用聯邦學習方式進行聯合建模之後,應用所得模型對已註冊但未曾進件的老客戶進行綜合評分,對前10%評分高的用戶營銷後,模型KS提升11%,每期營銷收入增加65萬。
圖2 天冕科技助力某頭部互金公司聯合營銷案例
在场景应用中,天冕科技的显著优势在于场景经验丰富。比如,在金融风控场景中,隐私计算技术的提供商首先需要让金融机构合作伙伴知道,哪些数据和算法对业务是最有用的。此外,在应用方面还有很多操作细节,比如在数据方面,不仅需要知道哪些类型的数据最有用,还需要知道哪些数据提供商的数据最好用,这些数据应该用在什么地方。这是需要用长时间的实践和教训才能换来的经验。丰富的场景经验,可以让合作伙伴将时间和资金投入最能提升业务效果的方向,从而真正让业务跑起来,见到实效。
在用戶側,像天冕科技這樣深耕場景的廠商在應用落地上具備優勢,因為天冕科技長期為合作夥伴提供風控建模等科技服務,對業務需求瞭如指掌,可以大大降低雙方溝通成本,迅速讓場景方進入業務狀態。在這方面,一些深耕隱私計算技術的廠商略有欠缺,可能發生的情況是,雖然科技部門採購了系統,但是由於較高的使用門檻,導致這些系統被閒置,或者使用率較低。
四、部署模式逐漸簡化,比拼服務的趨勢更加明顯,可視化將成為標配
早期的隱私計算產品,使用起來比較複雜,需要編寫代碼。但是現在,越來越多的隱私計算平台實現了可視化操作,極大地降低了產品的使用和操作門檻,使得許多初級的算法和建模人員也能很方便地應用產品。
零壹智庫接觸到的幾家公司,包括富數科技、天冕科技、藍象智聯、同盾科技等,都已經實現了可視化操作。可視化在今年將成為隱私計算產品的標配。
以下是天冕科技的操作界面截圖:
圖3 天冕聯邦學習平台WeFe操作界面
五、在場景應用的比拼,不僅需要比拼對業務的洞察,也是硬核科技的比拼
未來,隱私計算廠商要在場景中做好服務,也需要比拼科技實力——因為在場景應用中,有不少複雜難題需要解決,要解決這些問題,必須將技術中的難點攻克。比如,天冕科技在隱私計算方面已經積累了11項專利。
表1 天冕科技隱私計算相關專利列表
這些專利聚焦於解決技術應用過程中的複雜難題。
比如,其中一項專利是“基於聯邦學習的建模數據集推薦方法”。
聯邦學習是由多方參與進行聯合建模,在建模過程中需要聯邦成員去根據各方的數據集簡述,選擇各方都認可的數據去進行聯合建模。這種數據集簡述比較片面,只能反饋一個大概,沒有建模成功的案例參考,在雙方認可後需要反复去建模嘗試才找到自己滿意的數據集,這樣導致參與各方建模效率不高。
“基於聯邦學習的建模數據集推薦方法”,通過對用戶自身畫像和每次建模後的結果記錄以及反饋進行權重劃分,計算出一個用戶評分,根據用戶所屬領域、數據類型等條件進行評分排序,將評分較高的可用數據集推薦給需要進行聯邦建模的參與方。這樣做可以使建模各方能夠快速找到需要去建模的數據集,並且能夠快速的達到建模效果,減少建模的嘗試次數。
這種方法可以將匹配率高的數據集推給參與方進行建模,方便各參與方選擇匹配的數據集,提高建模效率。
六、開源正在成為潮流
在隱私計算領域,開源正成為一種潮流。
開源是指在開源模式下通過許可證的方式,使用方在遵守許可限制的條件下,可獲取源代碼、源數據等,並可使用、複製、修改和再發布。在這項技術中,項目的核心開發人員與大規模的外圍群體緊密合作,通過互聯網來開展協同開發、共享資源、管理代碼等,這樣將會使得項目開發的效率、應對需求變化的能力大幅增強。
在中國,隱私計算的開源是從微眾銀行的隱私計算系統FATE開始的。 2019 年7月,微眾銀行一共發布了10款開源軟件,其中就包括FATE——第一個開源聯邦學習系統,開創了隱私計算系統開源的先例。
在隱私計算領域,開源主要的作用是協助整個隱私計算行業發展,同時開源的企業也能夠從中獲利。隱私計算行業目前處在一個發展的初中期階段,行業內使用開源的模式是讓上中下游都將軟件開源出來,使得各方可以針對不同的應用場景,技術手段往各自需要的方向進行改進,極大提高隱私計算各環節的技術發展效率,使整個生態鏈更加完善。對於B端,開源也在市場上逐漸發展為成熟的商業模式。主要的三種商業模式有:第一,在軟件開源提供後,以軟件後期的運維、部署、諮詢、升級等技術手段盈利;第二,發行企業版與開源社區版雙版本,企業版以服務於一些特點企業應用場景進行盈利;第三,通過將開源軟件部署在雲端服務器,需求方通過訂閱的方式向提供方付費使用,同時這種模式也免去了實地部署等線下的過程與以及安裝費用。
表2:目前已知隱私計算開源項目
隱私計算之外,開源已經成為整個軟件開發領域大勢所趨。在整個軟件開源行業,據中國最大的開發者社區CSDN數據報告顯示,2021年初的CSDN去重用戶已達3200萬,並且保持高速增長態。開源項目文章數量逐年上升,並從2017年開始,連續兩年高速增加,也證明了開源在中國開發者群體中越來越受關注。在應用方面,比如金融領域,根據《金融機構開源軟件應用情況調研報告(2020年)》數據顯示,90%被調研金融機構已廣泛應用和試用開源軟件,其中5%的機構已完成主要軟件來源為開源軟件,26%的機構(股份製商業銀行為主)已有一定規模實際場景應用。
開源之所以成為軟件開發領域的大趨勢,是基於在軟件開源中,開源項目的核心開發人員通過開源軟件,與大規模的外圍群體緊密合作,通過互聯網來共享資源、開展協同開發、管理代碼等,由此使得項目開發的效率、應對需求變化的能力大幅提升。開源已經成為人類技術進步的較優平台與模式。
中國在開源領域,經歷了從使用者到貢獻者的發展歷程。在發展初期,國內普遍開源企業對開源技術採用拿來主義,忽視開源社區、商業模式和開源知識產權等方面的投入和積累,中國最初在國際上得到了只是開源使用者的評價。但是, 2009年之後,中國開發者提交的代碼被Linux基金會接受,其排名穩居世界前四之後,中國開始成為國際開源資源的貢獻者。
今天,開源再次進入加速期。國際數万億美元開源核心技術生態體系已經形成,越來越多的企業正在以開源形成商業體系,如MongoDB市值193億美元、Elastic市值115億美元,微軟以75億美元收購GitHub、IBM花費340億美元收購Red Hat。開源技術可廣泛應用於互聯網、電子商務、電子競技、智能家居、消費電子以及現代服務業等領域,還在金融,醫療等領域逐漸普及。眾多國內企業在逐漸發展的開源生態中看到了開源從商業模式與技術創新上帶來的商業價值,積極參與開源。阿里巴巴、百度、華為等知名頭部互聯網企業都已成為軟件開源領域活躍度最高的一部分參與者。
當下,零壹智庫了解到,在隱私計算領域,還有更多的公司已經或者正在加入開源的行列。比如,矩陣元目前正在做隱私AI 開源框架,包含區塊鏈組成的基礎的共識和管理層、隱私計算層、隱私計算網絡層、應用層等等,希望做成基礎設施。星雲Clustar在FATE開源社區內開源了解決針對FATE平台自身存在的一些問題的方法,如解決FATE進程間通信問題等經驗、技術、研究成果等。富數科技也在考慮開源計劃,並且倡導開源項目之間也要採用開放的、兼容的、公共的技術協議。
七、互聯互通已經提上日程
隱私計算在解決原先的數據孤島問題的同時,卻正在帶來新的問題,那就是帶來“新的數據孤島”。
此前,“數據孤島”形成的主要原因有:第一,數據持有方主觀上不願共享數據,數據作為戰略性資源和關鍵生產要素,擁有數據就擁有客戶資源和市場競爭力;第二,數據具有一定敏感性,涉及用戶個人隱私、商業秘密甚至國家安全,客觀上給數據持有方的外部數據共享帶來障礙;第三,合作雙方應用難度大,實施週期長,數據融合傳統方式製約條件多,實現過程複雜。
隱私計算技術的發展,理論上可以使得此類數據孤島現象得到解決,但是卻形成了新的數據孤島。這是由於在隱私技術發展的過程中,在計算機原語層面上出現多個分支,採用不同算法或協議,造成不同的廠商提供異構且協議不互通的軟件。而在非計算機原語層面,不同計算平台核心算法設計不同、功能組件差異化、管理系統不互通也成為問題。這使得技術使用方在使用過程中遇到困難,應用方通常需要安裝好幾個不同廠商的軟件才能解決問題。這將在未來帶來較為棘手的問題:隱私計算應用機構,需要採購多套隱私計算系統,要使得多套系統之間的數據互聯互通,連接的工作量將呈幾何級數倍增。
此前,區塊鏈行業同樣遭遇到“鏈孤島”問題。這是由於不同機構形成了基於不同底層架構、針對不同行業應用的各種區塊鏈系統。因此,業界已有呼聲,為了避免重蹈覆轍,隱私計算平台之間實現互聯互通迫在眉睫。
目前,互聯互通的工作已經提上日程。不少機構都在嘗試採取行動。
零壹智庫了解到,互聯互通方面最新的進展是,7月20日,中國信通院在隱私計算大會上發布了《隱私計算跨平台互聯互通標準第1部分:總體框架》,該標準致力於為不同隱私計算技術平台間實現互聯互通提供一套可行性的參考指南,通過統一規範的接口、協議等實現跨平台的數據、算法、算力的交互與協同。除第1部分外,該系列標準中通信要求、互聯協議、應用要求等其他部分標準也在陸續推進中。
展開全文打開碳鏈價值APP 查看更多精彩資訊