新聞資訊

白碩:我的數據誰做主

今天,數據的價值得到各方面前所未有的重視,被視為基礎戰略資源和核心資產。

作者:白碩

一、 遲來的覺醒

數據,被比喻為數字化時代的金礦。今天,數據的價值得到各方面前所未有的重視,被視為基礎戰略資源和核心資產。

在過去的一段時間裡,“互聯網經濟”野蠻生長,“跑馬圈數據”蔚然成風,造就了挾流量以自重、擁數據以為王的時代寵兒——互聯網平台公司的巨頭們。在他們所支配、所交易、所挖掘的數據裡面,很大一部分數據從法理上講是屬於用戶的,當然也有一部分是數據從法理上講是屬於平台的,此外還有很大一部分數據的產權歸屬尚不清晰,但是平台公司使用這些數據有著近水樓台之便。於是,平台便成了天然的數據“收割機”。它匯聚流量、打通場景,形成閉環,呈現粘性。平台公司憑藉這些“大數據”,為用戶提供了便利,為自己獲取了暴利,但也觸碰了用戶的數據權益痛點。據說中國的C端用戶在這方面對平台公司格外寬容和理解,寧願犧牲自己的數據權益來換取平台提供的方便,但這也只是巨頭如Robin們的一面之詞。 B端用戶則面對雲、SaaS和企業互聯網等鋪天蓋地的技術蒙汗藥,除了少數勇敢的嘗試者之外,更多的則是蜷縮在數據孤島上,因擔心數據擴散而不敢共享、因擔心數據不能產生預期合理回報而不願共享、因各種合理的監管規定而不能共享。

當今世界已經不是那個全球化凱歌高奏的世界。全球化已經遇到了實實在在的瓶頸,而數據主權與數據安全,則成為構築國與國之間新的籬笆牆的強有力的理由。人與人、人與機構之間數據主權的邊界也逐漸從無到有,從模糊到清晰。機構的數據主權雖則一直沒怎麼鬆口,但在花樣翻新的雲服務特別是SaaS面前,正處於且戰且退、幾近失守的邊緣。這是數據主人奪回自己神聖權利的背水一戰。美國針對涉嫌被洩露的Facebook用戶隱私數據用於操縱選舉進行了嚴厲追究,歐盟出台了史上最嚴格的數據權利保護法案,中國也在這方面的立法工作中有所推進。值得一提的是,中國依法對一批數據權屬不清、來路不正的所謂“大數據公司”進行了懲處,一舉扭轉了數據黑產、灰產猖獗的態勢,實乃大快人心。

從大的時間尺度看,中國用戶的數據權益意識正在覺醒。雖然這覺醒與平台的突飛猛進相比有點姍姍來遲,但已具備深刻影響我國乃至全球數字化進程的未來走勢的巨大能量。

但是,僅有覺醒是不夠的。目前的這種局面,只是對前一階段互聯網巨頭單兵突進,數據治理、數據權益保護和數據生態建設沒有同步跟進造成的困局的一種反彈性的惡補,一種矯枉過正。讓數據回到孤島之內,再用籬笆牆圈起來,權益或許是明晰了,但是已經數字化的世界、已經四通八達的高速公路卻被一個個的卡子攔腰截斷,這也絕對不該是數字化的初衷。

國際政治波譎雲詭。一記記砍向崛起中的中國的殺招,無論針對華為的還是針對TikTok的,細看都是在拿數據說事兒。中國心裡沒鬼,自然可以如前些日子發布的《全球數據安全倡議》那樣,高舉數據安全的旗幟,帶頭做出不侵犯用戶數據權利的承諾。我們也看到蘋果的新版系統裡面增加了用戶主動控制隱私保護選項的功能。儘管如此,目前我們還不能指望用一個不能自證的黑盒子就能打消用戶(尤其是國際用戶)對自己數據安全的疑慮,更談不上靠目前的技術水平就能在數據安全方面立於無可指責之地。

遲來的覺醒不是為了回到過去,而是為了更安全、更有序地通向未來。既然造成這一切的始作俑者是平台,那我們就從平台說起。

二、 不平的平台

是什麼造就了“平台”?是所謂的“互聯網經濟”。互聯網經濟的實質就是平台經濟、流量經濟、眼球經濟。平台不平,這是一切問題的根源。

平台不平,就是說平台隱含了信息的擁有者和信息的使用者之間的一種過度的不對稱性。關於互聯網經濟,一個眾所周知的大白話就是“羊毛出在豬身上,由狗來買單”。這話雖糙,但理不糙。一項為廣大C端用戶提供的免費服務,這好比是“豬”;廣大C端用戶在使用這項免費服務的過程中提供和產生的大量數據,這好比是“羊毛”;真正認識到上述數據的價值並且使用上述價值創造更大商業價值的交易,這好比是“狗”。薅數據這個“羊毛”,是互聯網經濟的最本質的屬性。在這筆交易的背後,廣大的C端用戶,正是以數據權利的代價,換取了免費服務的便利。到後來,數據寡頭的壟斷態勢已成定局之時,就算服務或明顯或隱蔽地不再免費,已經到手的便利也成了讓人上癮的誘餌,欲棄之而不能了。

平台為什麼能夠有如此神奇的數據匯聚能力,也就是所謂的“粘性”?這要從“常委定律”說起。

話說在認知心理學領域,有一個著名的“7±2定律”,意思是說,人類的短時記憶的容量,考慮到個體差異,大約在5~9之間呈正態分佈,平均數為7,誤差範圍大致為2。也就是說,小於5和大於9的情況比較罕見,這個數字,和我們中央政治局的常委數目的變動範圍比較類似,故也被戲稱為“常委定律”。

常委定律告訴我們,眼球資源是有限的,在數屏的App當中,真正被用戶經常使用的App也就是個常委數目,倒推下來,在我們這樣一個十多億人口的大國,有機會留在大眾的眼球中的App,沒有個幾億用戶根本拿不出手,更別說擠進前10名以內了。

在這樣的格局下,千軍萬馬搶入口,也就不足為奇了。以家庭場景為例,正如我們早年在理深科技時評上發表的《Alexa旋風》一文中所指出的那樣,“合縱連橫”的戲碼你方唱罷我登場。縱,指的是同一家電廠商的不同家電產品,從音箱到冰箱、洗衣機、電視機、抽煙機等等,都在爭相成為用戶訪問數字世界的入口,把用戶的數據向家電廠商匯聚;橫,指的是有機會成為在家庭場景裡的數據匯聚者的各類設備,如家庭路由器、家政機器人、異構家電中控等,都在爭相把物理上的咽喉地位提升為用戶訪問數字世界的入口地位,把用戶的數據向自己的領地匯聚。就連“輸入法”的供應商,都還記得去搶電腦屏幕的“右下角”呢。如果不是為了拿數據(且不管拿數據的動機是什麼),手機廠商為啥不把通信樞紐的功能做成開放框架,讓第三方來做大大小小直直彎彎可疊可卷的屏幕、做各種互動傳感設備呢?,如果僅僅是個通信樞紐,誰還在乎你是“手機”還是“腳機”呢?

在這樣的格局下,如果說爭搶“入口”是進攻套路,那麼盡量營造一個封閉的生態,也就是說數據對外來應用“欺生”的生態,就是十足的防守套路。自家的應用訪問自家的數據,開盡方便之門;別人家的應用訪問自家的數據,門兒都沒有。其結果,數據的王國必然是獨立王國,數據的壟斷是不可拆分的壟斷。數據寡頭必然是無冕之王,對社會生活的影響、滲透和控制,比之傳統產業的寡頭可以說有過之而無不及。就連強有力的政府和監管部門,對它們也要忌憚幾分。

在這樣的格局下,互聯網業務的“金融打法”必然會滋生,“賬戶為王”必然成為構建互聯網金融基礎設施的基礎理念,有了賬戶,大數據的語義指向、信任指向和金融指向都在不可逆轉地推進。在搜索引擎上基於“一時起意”、通過cookies建立的臨時賬戶同在電商、社交類平台上建立起來的有穩定存在感、有持續互動行為、有真金白銀流動的永久賬戶相比,敗落下風似乎是理所當然。

在這樣的格局下,“贏家通吃”幾乎成為唯一的一種競爭模式。其殘酷、血腥,令多少怀揣夢想的創業者止步並鎩羽在贏家通吃的滾滾車輪之下。中小規模的服務者,不投靠平台就沒有生路。平台是數據匯聚的最終歸宿,也是依托數據匯聚開展的那些號稱“躺贏”的平台型公司的搖錢樹。平台明明如此不平,平台方在宣稱平台是平的時卻那樣地心安理得,以至於全然無需自證清白。

這一切,都是因為同一個看上去在技術上顛撲不破的真理——假如數據不匯聚,我平台能做的一切你都做不了。從技術上憋死別人,我打你,那是絞殺;在技術上鐵板一塊,你打我,那是踢鐵板。這是數據寡頭們最為關鍵的憑仗。贏家之所以通吃,贏就贏在這道技術壁壘上。中小規模的服務者要想破局,卡就卡在這道技術壁壘上。沒有技術的金剛鑽,法律上再好的反數據侵權、反數據壟斷的瓷器活兒,也難以在技術上落地,反而屢屢被平台所旁路。名義上,數據的所有權歸我,事實上,平台卻在掌控著數據的使用權。我的數據,究竟是誰在做主?

三、 艱難的重構

其實從上面的分析不難看出:平台不平,與其說是贏家通吃的結果,不如說是贏家通吃的原因。

因果關係一旦理順,主攻方向也就明確了:尋找讓平台更“平”的技術,讓平台不管數據是否匯聚,都能如同匯聚一樣產生聚合性的服務效果,讓數據的每個貢獻者都能從這“不匯聚的數據”所產生的“聚合性的服務效果”中行使屬於自己的那份權益。

這個看上去似乎不可能的目標,正在技術極客們的努力推動之下,艱難地推進著。三股涓涓細流,正在匯成數據權益保護技術的大河。

第一股細流叫多方安全計算。這是一種高級的密碼學技術,試圖用某種不洩露數據的特殊密碼學算法,向外界自證該數據上的一些可驗證的特定的關係,比如等式關係、不等式關係、包含關係、運算關係等等。

第二股細流叫聯邦學習。這是一種高級的機器學習,試圖讓數據待在原地不動,等模型找上門來訓練,走的時候只帶走學到的參數,而不帶走數據本身,也就是說“數據不動,模型動”。

第三股細流叫區塊鏈。這是一種在非信任的數字化環境下提供信任服務的基礎設施,不僅可以把多方安全計算和聯邦學習無縫地嫁接在由多方維護和驗證的存證、定序、價值流通平台之上,而且也可以利用這個平台加上某些常規密碼學算法搭建而成的隱私協議來作為前兩股細流的補充。

三股細流匯成的大河,構成江湖上一套嶄新的功法,口號是:“數據可用,不可見”。

可用,就是說數據所包含的某種關係,是實打實得到證明的,是可以放心去讓“外人”們去見證、去使用的;不可見,是說數據的本尊,是得到妥善保護的,是那些“外人”們看不見、拿不到,也間接推測不出的。即使看見,也是穿了馬甲戴了面具的數據,或者是用不可見的數據熬出來的已然面目全非的“湯”。比如,可以讓“外人”們確信A+B=C這樣的等式約束,A>B這樣的不等式約束並為之做出見證,然而關於A、B、C長什麼樣,卻一點頭緒都摸不到,或者最多只能看到一堆代表A、B、C的亂碼而已。

能納入這個框架的“關係”越多,這條大河的奔流就越洶湧。當它奔流到海之日,就是數據權益保護大功告成之時。

當然,所謂“我的數據”,並非只是狹義地指稱“我擁有的數據”,它還可以是“關於我的數據”或者“反映我的行為或狀態的數據”。後面兩種數據,從目前技術發展水平來看,甚至用了上面說的打法也未必有多大用。除了“事後監管”,似乎別無它法。但是,能幹的事情也已經不少了,比如隱私貨幣、徵信、共同用戶推薦、策略交易等等。有興趣的朋友可以參閱相關文獻做更深入的探討。

這樣的努力,絕不僅僅是工程層面多了幾個應用項目那麼簡單。它是針對已經走偏了的數據寡頭壟斷格局的一次艱難的重構,意義更在於向“我的數據我做主”的境界邁出堅實的步伐,給迷茫困惑之中的數據孤島照去一縷希望之光。僅憑我們說到的技術能走多遠,或許還是要畫上一個大大的問號,但是後浪們一定會在這個方向上發展處更牛的技術,把重構進行到底。

彼岸長什麼樣?筆者在這里斗膽猜測以下十二個字:“平台留下,數據回去,公司解散”。平台是好東西,但是平台應該大家建、大家用、大家分享收益;數據是寶貝,不能拿出來,但是所幸有黑科技幫忙,不拿出來也能干成事兒;平台型公司沒有必要存在,大家用聯盟的形式運作平台即可,不需要一個“躺贏”的平台主人。也許這猜測過於烏托邦,但不試怎麼知道?

四、 危險的集中

說完了公司,我們再來用一點筆墨說說政府。

政府有集中數據的權威,也有使用集中後的數據的權威。這些都不是問題,問題是,這些數據並不是十分安全的。越是有價值的數據,管理它的人越會面臨巨大的道德風險,成為數據黑產的圍獵對象。如果管理它的人不是政府的直接僱員而是斯諾登那樣的外包商僱員,這後果就更可怕了。所以,能分散搞定的事情,在數據不動窩(不是指物理上的不動窩,而是指管轄邊界上的不動窩)的情況下就能搞定的事情,千萬別為了追求數據大一統而強行搞數據集中。太多的前車之鑑說明,那是危險的集中。更何況,平級的政府部門之間,數據大一統也不是很好搞定的,這裡面本位或許是一個問題,但安全其實是更大的問題。

如果說過去搞數據大一統是因為沒有可行的技術手段在數據分散的狀態下滿足應用的需求,但是有了我們說的這一套能使數據“可用不可見”的技術,數據大一統的必要性大大降低。聯邦化的數據存儲和治理格局,會成為未來政務數字化建設的一個嚴肅的選項。

展開全文打開碳鏈價值APP 查看更多精彩資訊