一家隱私計算公司怎麼才能年入十個億?

2018年2月,在美國做了10餘年數據安全科研工作的王爽啟程回國時,被一名FBI官員攔下。

對方拿出一份中國剛剛公示的新一批“海外青年高層次人才”中文名單,名單中正好有王爽的名字,他是唯一上榜的醫療隱私計算領域的專家。

此前,他往返中美數次,都暢行無阻。但這一次,FBI似乎對他“隱私計算專家”的身份格外在乎。在跟對方解釋了兩個多小時後,王爽才得以啟程。

這看似是則個人的小插曲,但背後反映的更像是一個行業發展的先兆——在數據成為生產要素的時代,隱私計算正扮演越來越重要的角色,並受大國的重視。此次王爽回國,也正是因為他判斷隱私計算將迎來前所未有的發展機遇。

此後確如他的預判。先是2018年5月25日,歐盟《通用數據保護條例》(簡稱GDPR)正式生效實施;一個月後,美國加利福尼亞州頒布了美國國內最嚴格的隱私立法《2018年加州消費者隱私法案》(簡稱CCPA),對消費者隱私權和數據安全進行保護。此後臉書和谷歌就因為強迫用戶同意共享個人數據引來巨額罰款。

在法律對數據安全給予最嚴厲的規範後,隱私計算成為當下數據合規流動的最優技術解。此後,一批從事隱私計算的企業紛紛出現,其中既有從大數據、區塊鍊等領域轉型而來的公司,也有BAT等大廠的下屬部門,以及專精型創業公司,其中就包括王爽創立的锘崴科技。

尤其今年,在《數據安全法》《個人信息保護法》等一系列制度走向健全之後,國內隱私計算迎來爆發式發展。根據中國移動通信聯合會、中科院和中國信息通信研究院等單位聯合編寫的《2021隱私機密計算藍皮書》,以隱私計算為底座的數據流通市場規模可達千億元,其中醫療、金融、政務是目前隱私計算的三大應用領域。

今年8月,由王爽創辦、成立不到兩年的锘崴科技順利完成億元級B輪融資。 “放到兩年前,投資人光是搞懂隱私計算的概念就要花上不少時間,而這次整個融資過程也只有兩個月。”王爽稱。投資人追捧的背後,是整個隱私計算行業加速落地——今年锘崴科技營收有望實現10倍以上的增長,而按照王爽的樂觀預計,3-5年後行業就會出現營收超過10億元的隱私計算企業。

這場由數據安全引發的新型計算範式,已然站在科技的風口上加速前進。

隱私計算,從概念到落地

2016年,谷歌AI在一篇技術博客文章中首次引入“聯邦學習”的概念,隨後這項技術開始在AI領域受到關注。

所謂“聯邦學習”,就是允許多個參與者在不共享數據的情況下,構建一個通用強大的機器學習模型。

簡單來說就是,通過“數據不動模型動”的方法,來解決如數據隱私、數據安全、數據訪問權限和對異構數據訪問等問題。此後“聯邦學習”逐漸受到關注,推動了整個隱私計算技術架構的完善。

但如果詳細追究起來,谷歌並非“聯邦學習”核心理論的首創者,因為在此前的4年裡,中國學者王爽已對其多次論述 [1][2][3]。

2011年底,剛加入加利福尼亞大學(UCSD)聖地亞哥分校擔任助教的王爽接到一個任務,從學術的角度搭建一個服務於美國生物醫學計算網絡的隱私保護計算構架。這個項目是美國國家生物醫學計算中心最核心的部分,要用技術打通美國300多家醫院的醫療數據,並製定一套標準。

此時,全球尚沒有“隱私計算”的概念,王爽所有的工作要從頭開始。幸好他剛完成的博士研究課題就是分佈式編碼。這原本是密碼學的一部分,王爽試著將這一技術理念應用到醫療數據共享的新任務中,並把其稱之為“安全聯邦學習”。

其主要思路就是,在每次使用各醫院的數據時,只把分析模型放到數據池中進行運算,而不用提取數據。這個創意性的想法不僅讓醫院沉睡多年的數據發揮了價值,還解決了數據安全問題。

2012年,王爽在SCI期刊上發表了全球第一篇在線醫療聯邦學習論文。這篇論文,也成為日後他在醫療隱私計算領域學術研究和工作方向的源頭。

在完成美國國家生物醫學計算中心項目後,王爽看到了醫療領域對隱私安全的巨大需求。

熟悉醫療行業的人或許知道,醫生跟大學教授一樣,在“救死扶傷”的本職工作外,還承擔了很多科研項目。

理論上,醫生通過自己的臨床實踐,更容易把醫療經驗抽像出來。然而現實是,要把這些經驗抽象化就需要大量的數據驗證,而一個醫生在單個醫院拿到的數據量遠達不到這個要求。為此,就需要把多家醫院醫生的經驗數據拿來驗證。

已經推行了數十年醫療信息化,其初衷是用技術提升醫療效率、打通醫院之間的信息壁壘,但種種隱私安全問題一直橫亙在理想與現實之間,使得過去建立的醫療信息化系統實際上只完成了在內部提升效率的任務,醫院與醫院之間仍沒有實現信息互通。

醫院之間的數據不互通,有著棘手的現實原因。首先病人的數據涉及個人隱私,不能直接分享;其次,數據互通涉及到一家醫院的數據安全,因此醫院也不會輕易將數據洩露;第三,數據是不可控的,一家醫院把數據共享給合作者,對方拿到數據後很可能就變成了競爭者。

如果不解決數據安全問題,在現有情況下醫院間的數據共享就不可能完全實現。

王爽發現,用“聯邦學習”等手段從技術層面解決這個問題,可以實現“數據可用不可見”,進而大大提升信息化技術在醫療中的可用性。比如過去醫院在治療罕見病時往往受限於單中心數據量不夠等問題,在解決了數據隱私問題後,就可以整合全行業數據為病人尋找最有效的治療方案。 “原來需要數週尋找治療方案,現在可能會縮短至1天甚至更短。”王爽說。

圖注:锘崴科技聯合創始人、董事長王爽在2021世界人工智能大會上參加隱私計算討論

要真正實施這個設想,還需要技術與產業的磨合。最好的方式,就是通過一類活動把技術與產業的人聚集到一起,消除“搞密碼學的群體和醫生群體之間的gap(隔閡)”。

2014年,王爽在美國國立衛生研究院(NIH) 的支持下發起並組織了第一屆iDASH安全計算競賽。儘管第一屆比賽只來了10支隊伍,這些隊伍還多是靠著主辦者的“學術魅力”吸引來的高校團隊,但畢竟為隱私計算的學術和醫療產業架起了一座溝通的橋樑。

此後,隨著大賽的規模、影響力不斷擴大,參賽隊伍已擴展到來自互聯網大廠、創業公司等上百家。如今iDASH安全計算競賽已是全球隱私計算領域頗具影響力的賽事之一,成為各大隱私計算廠商展現實力的角逐場。

讓王爽驚喜的是,當掌握隱私計算技術的極客跟醫院的醫生頻繁交流後,隱私計算的技術也有了飛速迭代,“在技術性能上,每年都會有10倍的提升。”他有一個很明顯的感受,此前解決一個多方聯合建模的問題需要1個小時,現在只需要1分鐘。

在突破了技術關後,隱私計算正迎來一場落地風暴。

舊技術、新風口

2018年5月,歐盟正式實施號稱史上最嚴數據監管條例的GDPR,此後傳言Facebook、谷歌等公司或將面臨天價處罰。最終谷歌被法國數據保護監管機構處以5000萬歐元的罰款。

以此作為分水嶺,數據安全開始受到各大科技公司空前的關注。

與此同時,隱私計算也成為科技圈關注的焦點。王爽還記得,2018年3月他應美國麻省理工學院(MIT)邀請,做了一場隱私計算相關的報告,結果台下的聽眾裡有多位圖靈獎得主,還有美國華裔科學家、斯坦福大學教授張首晟。

隨即,一場由科學家和教授主導的隱私計算創業潮開始起勢。

從2018年開始,由清華大學交叉信息研究院徐葳教授創辦的華控清交,隱私計算、聯邦學習領域開拓者王爽創辦的锘崴科技,以及光之樹等專注於隱私計算服務的創業公司先後出現。與此同時,BAT等互聯網巨頭以及此前的大數據、區塊鏈、AI等領域的公司也紛紛涉足或者轉型到隱私計算領域。到2020年之後,隱私計算行業發展迎來第一輪高潮。

“從專注程度上看,創業公司在大廠面前也不會顯得有劣勢,反而它的中立性是大廠所不具備的。”王爽告訴「甲子光年」。

儘管如此,王爽還是強調,隱私計算的技術門檻不能忽略。 “在第一波隱私計算創業潮之後,很多公司便開始基於開源框架,把自己包裝成隱私計算公司,對外號稱自己有隱私計算的能力,然後找投資機構拿錢。”他說。

一方面,隱私計算所用到的技術並非是前沿的新技術。除了前文講到的聯邦學習外,還有安全多方計算,這是圖靈獎華人獲得者姚期智在上世紀80年代提出的;此外還有可信計算環境、同態加密、差分隱私等也都是十餘年前提出的加密技術。但這些技術在應用時,會有性能上的考驗。比如加密後數據的處理內存是否過大、系統的運行時間是1小時還是1分鐘、構建模型的參數精度有多高。 “沒有幾年的技術積累,這種優化是做不到的。”王爽稱。

另一方面,隱私計算技術的應用需要很深的場景理解力,這是隱私計算商業化落地的關鍵,道理跟過去兩年的AI落地難是一樣的——只能靠深耕行業來實現。

基於這兩方面的優勢,2019年10月成立的锘崴科技,在兩個月後就拿下中國醫療信息大數據國家隊的項目,與其他參與者共建基於隱私計算的省級醫療雲。這套隱私計算系統,可以將一個省內下轄的上百家三甲醫院、上千家二甲醫院、以及上萬家社區醫院的數據進行打通,推動醫療數據的價值轉化。

王爽還記得,最初在跟中國醫療信息大數據國家隊相關人員交流時,對方就特別看重隱私計算的“開箱即用性”。 “他們之前曾接觸過業內幾家創業公司,但最後的效果都不太理想。”在跟王爽交流後,對方得知他曾做過美國國家生物醫學計算中心的項目,在大規模醫療隱私計算領域有近10年的經驗,更重要的是,锘崴科技的底層技術平台在跨院的千萬級數據上有過驗證,可以實現“開箱即用”。

拿下中國醫療信息大數據國家隊,意味著锘崴科技先從廣度上打開了隱私計算在醫療數據網絡中的應用。但這一層觸達的更多是類似“病人信息首頁”的數據,缺乏深度。

為此,锘崴科技又找到國家專病網絡的項目,並與之達成合作。專病網絡覆蓋的數據不像省級醫療雲那麼大,只有幾十家頭部的專病醫院,但其優勢在於數據有足夠的深度。 “深度的意思是,它有一些專家製定的字段,這些字段對於某些罕見疾病領域的研究、藥廠的新藥研發有非常強的幫助。”王爽解釋稱。

基於專病網絡,锘崴科技與某頭部醫院的風濕免疫網絡進行合作,將隱私計算技術部署到其專病下的多家三甲醫院,通過“數據不動模型動”,使原始數據“足不出戶”(不離開數據源邊界),只傳輸加密的中間計算結果,實現可跨多家醫院的聯合分析。這項成果還獲得了上海市科學進步一等獎。

目前,锘崴科技已經完成了超過15個項目的PoC(驗證性測試),潛在客戶則超過50家。

多位業內人士告訴「甲子光年」,隨著今年9月1日《數據安全法》在國內正式實施,隱私計算在數據安全領域的落地也呈加速態勢。

什麼時候能年營收十億?

王爽預期,今年锘崴科技有望實現10倍的營收增長。他還有一個更大的預期,未來3~5年,隱私計算行業將出現營收規模達10億元的企業。

這是一個令從業者振奮的消息。但現實的難題是,隱私計算該如何邁出商業化的步伐?

據「甲子光年」了解,實際上目前絕大部分隱私計算公司的商業模式還是通過做項目、解決方案來收費。 “一些看上去營收很高的隱私計算公司,其實背後是把其他業務的收入加進去了,比如信息化系統、區塊鏈項目等。”一位業內人士稱。

這就導致行業對隱私計算的商業化能力存在一種疑慮,隱私計算能否實現大規模營收?如何盈利?

按照王爽的想法,要實現10億元的商業化目標,隱私計算的盈利模式就需要轉變為基於隱私計算的底層架構做開發應用,然後在這個應用程序上做相關數據的營收。 “有點像滴滴、美團這種模式。”王爽稱。

根據過去的經驗,王爽發現,不同行業、不同場景對數據安全性的要求也不一樣,其對隱私計算要求的效率和精度都不同。於是,他和團隊把不同行業、場景進行梳理,抽像出核心的需求;然後在底層平台加上上層應用,這樣平台上的不同應用可以對應不同行業、場景下的需求。

圖注:锘崴信隱私計算平台及其模塊

比如,將聯邦學習、安全多方計算、同態加密等技術排列組合後形成一個個微服務,當用戶提出一個需求後,可以找到對應的服務項,無需再基於每一個應用場景重新定制相應的應用。

這相當於把自己變成了一個基於隱私計算的數據交易平台,通過平台上的各種交易應用實現營收。這樣一來,隱私計算的商業化想像力將被無限放大。

從行業格局上看,螞蟻集團、微眾銀行等基於巨頭的公司都在做隱私計算,但“螞蟻本身也是數據的大甲方”,這時候中立的第三方就變得重要起來。

聯想之星合夥人高天垚表示,現在隱私計算領域還是一個兩方的格局,“ 將來肯定慢慢形成多方的大平台。”

要實現這個目標,第一步需要解決的是“數據孤島”問題,隱私計算公司要先在企業客戶內部打通數據,然後在行業內部實現數據互通。

在王爽看來,這都是隱私計算節點搭建的過程。 “過去很多數據源沒有隱私計算節點,不能對外服務。我們把隱私計算的客戶端設備部署到數據源,可以實現數據源對外服務,衍生出更多應用。”他表示。

目前這一模式已經在國內癌症專病網絡得到應用。锘崴科技將隱私計算部署到該專病網,搭建起一個覆蓋全國24個省、60多家醫院的癌症科研數據平台,然後藥廠可以基於該平台做藥品研發分析,保險公司也可以基於該平台做核保。

在搭建隱私計算節點的同時,锘崴科技也在推動行業標準的建立,包括跟中國信通院等10 家機構一起推動“聯邦學習”的行業標準,以及參與相關部委的醫療領域隱私計算國家標準的製定。

在隱私計算節點和相關行業標準逐步完備之後,打通跨行業數據變成一件水道渠成的事情,屆時一家營收規模在10億元的隱私計算企業也不再是空談。

[1] Shuang Wang (王爽), et al., EXpectation Propagation LOGistic REgRession (EXPLORER): Distributed Privacy-preserving online model learning, Journal of Biomedical Informatics, Volume 46, Issue 3, 2013.

[2] Y Tang, Shuang Wang (王爽), et al., Privacy-preserving GWAS analysis on federated Argentina datasetsSD Constable, BMC 醫學信息學與決策 15 (5), 1-9, 2015

[3] CL Lu, Shuang Wang(王爽), et al., WebDISCO: a web service for Distributed cox model learning withoutpatient-level data sharing, Journal of the American Medical Informatics Association 22 (6), 1212-1219, 2015

Total
0
Shares
Related Posts