AI大模型訓練背後,一條數據產業鏈正在形成


作者:騰訊科技郭曉靜

圖片來源:由無界AI生成

“大力出奇蹟”、“暴力美學”,這兩個詞一直伴隨ChatGPT的討論出現。而“大力”和“暴力”,除了“巨大的算力”之外,還有海量的數據。 a16z 創始人Marc Andreessen在Data+AI大會上也提出,二十幾年來互聯網增持的海量數據,是這一次新的AI浪潮興起的重要原因,因為前者為後者提供了可以用來訓練的數據。

據OpenAI披露,GPT-3.5的文本語料多達45TB,相當於472 萬套中國四大名著,而GPT-4 在GPT-3 和GPT-3.5 訓練數據集的基礎上又增加了多模態數據。而7月18日,Facebook母公司Meta發布首個開源可商用的大語言模型的Llama2,預訓練預料高達2 萬億token。

有能力獲得海量的、高質量的數據,被看做未來大模型公司的核心競爭力之一,也是各大巨頭AI軍備競賽的必爭之地。數據也被看作決定未來發展的關鍵生產要素。根據《數字中國發展報告(2022年)》統計,數據要素所能釋放的數字經濟潛力將無比巨大,我國2022年數據產量達到8.1ZB,全球佔比10.5%,位居世界排名第二,數字經濟發展處於領先優勢。

然而,數據作為全新的生產要素,也帶來一系列亟待解決的問題:究竟如何理解數據?如何對數據確權?如何挖礦數據的價值?是否真的能交易流通?數據是否能真的作為一種資產,計入到企業的財務報表中?安全性如何管理?為此,我們對話了北京郵電大學科學技術研究院副院長曾雪雲教授,請她深度解答了相關問題。

以下為對話實錄:

騰訊科技:普通人可能會關心,大模型訓練的數據從哪裡來?有沒有用我的個人數據,這些數據是否會有確權的問題?

曾雪雲教授:大模型計算的這些數據是個人數據。個人數據相對於企業數據來說,它有一個權屬問題。原則上,我的數據我做主。比如說社交軟件上生成的數據,原則上來說,社交軟件所屬的公司不能使用我的個人數據,雖然這些公司已經通過默認授權的方式,實際上控制了這些數據,但具體數據怎麼用是要受《個人信息保護法》來規範的。

那如果要用於大模型計算,該怎麼來使用呢?在技術上需要進行隱名化處理,在經營上還需要有一個市場主體,就是要賦予某某公司一種合法的去經營這些數據的權利,換句話說,給這些數據找到一個市場化主體。當這個市場化主體拿到這個數據之後,需要投入人力、時間、智力、資本,去生產數據,這些我們都可以稱為勞動投入。經過勞動投入之後,就把屬於個人的數據信息衍生為公司的一種再生數據,或者叫次生數據。然後,次生數據生成過程性數據,再到數據的產品、數據的服務。這個時候,就把原生的以個人為數據擁有者的個體數據變為企業的數據產品和數據服務。這是一個產品化的過程。

騰訊科技:是不是可以這樣理解,互聯網公司通過授權獲取個人的數據,經過這些公司的流程化處理之後,就可以變成這個公司的某種數據資產?

曾雪雲教授:也可以這樣理解,我們個人在互聯網上生成大量的數據,就好像自然界的各種自然資源。比如說,土地上可以生長出很多的花草樹木,可以有很多資源在生長。這種資源是一種公共資源,是可以去開發和利用的,但不可以直接買賣。利用和加工之後生成的是企業的資產,這是允許的,我們也應該鼓勵這樣來開發數據生產要素。

騰訊科技:從個體角度出發,如何保護我們的個人數據,讓它們按照我們想要的方式去流動?

曾雪雲教授:人工智能的時代,人們的隱私越來越難以被保護了。因為人們的一切行為都在被記錄,地理位置的移動、生活、工作、飲食、起居,都在被記錄。一旦被記錄下來,這些原本屬於我們個人的信息,就不再能為行為人所控制。所以,這個時候隱私洩露的風險很大,數據保護的任務也很重,數據保護的難度也很大。

人們怎麼樣來維護自己的數據權益?其實各個國家也有一些商業化的辦法。第一種,像日本,用的數據銀行,就是每個人可以像在銀行存款一樣,把數據存放在數據銀行。數據銀行,是一個數據的保管者,它本身也可以作為一個數據價值的原始開發者,然後個人也能獲得一定的收益。這個就說,它能讓一部分願意一定限度下公開和利用自己數據的這一部分人,可以有一種商業模式,以一種自選擇的方式來解決數據保護問題。也就是,構造合法的數據流通、合法的數據的開發和利用模式,這是一塊。

另外一部分,就是說我個人不願意,那麼就不授權給數據佔有人。不授權的情況下,國家就要加強數據保護。如果誰要非法去開發這部分數據,那就要進行懲戒,要進行法律監管,可以用區塊鏈技術跟踪此類行為。比如說,我們的數據有沒有被洩露,被洩露到哪了,去進行數據流轉的跟踪。還可以進行數據血緣關係的跟踪和分析,現在已經有數據血緣技術。大概就是說,數據它從哪裡來,到哪裡去,數據血緣分析實際上是一種數據的相關分析,以及數據的溯源,用血緣這個詞就是非常形像地講述了數據的來龍去脈。一切都在被記錄,所以記錄別人的這種數據和技術,它也能被記錄下來,也能被公開下來,也能被穿透。

我國《民法典》在人格權篇中對個人信息保護做出了專門規定。 《民法典》第127條則將數據與網絡虛擬財產並列,凸顯了數據的財產屬性。在地方性立法中,《上海市數據條例》第12條的規定直接體現了“人財兩分”的權利配置模式。該條規定:“本市依法保護自然人對其個人信息享有的人格權益。”“本市依法保護自然人、法人和非法人組織在使用、加工等數據處理活動中形成的法定或者約定的財產權益,以及在數字經濟發展中有關數據創新活動取得的合法財產權益。”

2021年8月20日,十三屆全國人大常委會第三十次會議表決通過《中華人民共和國個人信息保護法》,自2021年11月1日起施行。具體內容在網上能查到。 《個人信息保護法》中個人信息的司法性質也是人格權益保護,幾乎不涉及個人信息的財產權益。

騰訊科技:對大模型訓練起到重要作用的高質量數據,究竟指的是哪些數據?

曾雪雲教授:數據應該是人類經濟、社會、生產、經營、商業,甚至軍事活動的全部記錄。這樣的一個記錄,它生產於各個行業、各個領域、各個方面。就原生數據而言,它有高質量、也有低質量。比如說,上市公司的財務報表,財務數據,就是一種高質量的數據,而且是一種結構化的數據。因為這種財務報表和財務信息都是經過社會審計,經過註冊會計師審計的,有證監會來監管信息披露,所以是高質量數據。再比如說,中國知網裡的論文數據也是高質量數據。但是,互聯網上生成的這些數據,它是非結構化的數據,也是非標準化的數據。這樣的數據就是一種原始的、比較雜亂的、沒有規範的數據,它就需要在計算前進行顆粒度上的清洗,所以高質量數據通常都有從非結構化到結構化這樣的一個加工過程。

騰訊科技:既然高質量數據可以被不斷生產,為什麼會有“高質量的數據快用完了”這種說法?

曾雪雲教授:我認為是對數據的生產加工的能力跟不上人們對於數據的需求,做數據生產加工的整個供應鏈價值鏈這一端,它的生產力還比較弱。因為我們知道數據是在不斷爆發,但是高質量數據快用完了,它只是說從數據到高質量數據的過程當中,我們缺乏一種生產力,一種整合的能力。這個時候就需要有數據商,我們現在很多數據商,只是在做數據的直接利用,但對於數據的生產和加工,對於如何生產高質量數據,這一塊的能力或者說商業模式的設計還是很不夠的。

其實OpenAI 的GPT-4,就採用了大量前一代模型GPT-3.5 生產的數據來進行訓練。 OpenAI的創始人也在近期的採訪中說過,“合成數據是解決大模型數據短缺的有效方法。而其中的關鍵在於,有一整套體係來區分AI 生成的數據中,哪些可用,哪些不可用,並不斷根據訓練後模型的效果進行反饋”。這家公司並不只是能融到錢,能支配很多的算力這麼簡單,對於數據的產品技術能力,也是這家公司的核心競爭力之一。

騰訊科技:為了提高高質量的數據生產力,產業設計需要有哪些必要的環節?

曾雪雲教授:關於這個問題,首先要理解數據是什麼?我們有哪些數據?以及要用這些數據去做什麼?也就是說,生產高質量的數據,它不是有生產能力,就能有高質量數據,也不是有生產的意願,就有高質量數據。它一定需要從源頭來理解數據,要用數據去解決社會上的什麼問題?市場對數據的需求端在哪裡。然後,從原始數據到需求端,中間應該怎麼去生產?這一系列的問題需要有產業設計在裡面,目前整體的思考都是不夠的。

騰訊科技:產業不成熟是一方面,是不是也意味著這個產業還是一片藍海?

曾雪雲教授:非常早期的一片藍海。更早期存在一些違規的直接買賣數據的情況,後來國家立法不再能夠直接買賣數據本身,不再去交易原始數據。數據是不能做原始交易的,應該是對自己的生產投入的結果去做交易,而不是說佔有了什麼數據,我直接去賣數據,這是不可以的。

2022年(12月份)出台了《數據二十條》,《數據二十條》其中就提出數據的權屬分置要求,將數據的所有權、經營權、受益權進行多權屬的分置,其中提到數據要進行這個分層分類管理。這是數據治理的頂層設計,是一個整體藍圖。也可以說,是未來數據產業規範化發展的開端。這個時候,人們意識到數據不是一個整體,而且要去理解數據究竟有哪些權益,這也是對原來以法學為基礎的研究推進到以經濟學為基礎的研究。要去建立數據市場,市場一定是經濟行為。這種經濟行為,要用很多經濟學的工具、經濟學的理論,所以現在從對數據科學的研究、國家對數據的治理,到學術界對數據的研究、產業界對數據的利用都是一個藍海,都是一個剛開始的狀態。

騰訊科技:這樣看來,數據可以作為企業的某種資產存在,數據屬於哪類資產?

曾雪雲教授:數據分類是學術界非常熱門的話題。多數情況下,人們會覺得數據是無形的,看不見、摸不著,叫無形資產。但實際上從國際電聯的分類來看,數據它更接近於存貨資產,因為數據也涉及到生產、加工這樣一個過程。而且數據本身它是一種電子化的有形資產,為什麼它是電子化有形資產?數據它會佔用物理空間,很多數據本身也有實物形態,它是在網絡端的一個實物形態。圖片,能看得見這張電子圖片;聲音,能聽到這個聲音,人像,能看到這個人像,所以數據它是數字化的有形資產。

我們知道,數據資產是一種非常特殊的資產類別。有的會提出來說,數據可以類比於無形自然做攤銷,或者類比於固定資產做折舊。其實,要先對數據去做分層分類,看這些數據屬於哪一類。有的類型的數據,它還具有可生長性可融合性。比如說,中國聯通所有的通話數據,如果能和個人的銀行存款投資數據融合在一起,就能生成關於這種人從投融資到他的通信以及到職業的更多信息的畫像。這個時候,就有數據與數據之間融合產生數據價值的累加效應,這個時候數據就具有可融合性和可生長性。還有一部分數據,確實具有時效性,隨著時間的推移,它的價值就衰減了。所以,我們還是要更具體地來分析數據本身的特性,才能知道它的核算價值,並且數據價值的核算,具有更多的可變性和不確定性,它不像固定資產,固定資產形成時候的資產價值是確定的,隨著時間的推移,價值是逐漸遞減的,但數據不一定隨時間遞減,數據有更加複雜的資產形態。

騰訊科技:未來數據是不是AI企業的核心競爭力之一?數據資產是否有可能量化體現在企業的估值中?

曾雪雲教授:對於一家人工智能的企業來說,數據就是它最核心的關鍵競爭力所在。對於一家AI公司來說,產品的體驗決定了這個企業的商業價值,而數據的能力,決定了產品的體驗。對於一個國家來說,數據是未來的關鍵競爭力,也是未來的黃金,就像石油是工業時代的黃金,數據就是互聯網經濟時代的黃金。

但是目前,世界各國其實在數據治理方面遇到困難,還沒有一個國家率先取得突破,怎麼解決數據安全、數據治理與數據開發利用三者之間的平衡。

在這方面,中國已經敏銳地意識到了數據的重要性。各個國家也都意識到數據是一種新的生產力,但數據怎麼利用,它需要有市場主體,需要有智能科技,還需要有國家規制,所以,它不是一個簡單可以解決的問題,它是個系統複雜性問題。

中國的國家治理是從中央到地方的相對中心化的安排,所以我們天然就有優勢,可以去整合全國范圍內的大數據,但這個優勢現在還沒有體現出來,是在於數據的估值和估價存在問題,還有數據進入會計報表核算的問題沒有解決。這個問題,在全世界範圍內也都沒有很好的解決辦法。

如果說數據能從表外資產進入到表內資產,那麼數據治理的價值核算以及數據價值的管理就都能解決好,數據的交易就有了一個客觀的基礎。現在我們的企業數據,基本上是表外資產,沒有進行估值,也沒有在資產負債表上做計量和報告,因此並不清楚企業究竟掌握了多少的數據量,以至於數據的經濟價值是多少也很難做統計。數據沒有進入表內,那麼它的交易也就缺乏一個合理基礎,所以數據入表是一個關鍵性問題。對於數據量的統計、數據價格的核算、對於數據交易的計價,從量的統計到價的核算再到交易的基礎,它需要以數據進入資產負債表、利潤表,進入財務報表的核算為底層設施。這個底層設施還沒有解決好。

騰訊科技:數據產權立法,國際目前已經有哪些先例?

曾雪雲教授:研究數據產權立法。現在全球各主要國家針對數據保護的法案基本具備,而且日漸清晰地定位於推進數據物權中的人格權保護法案,但是針對數據利用的法案法規基本缺失,日本在這方面有一定先進性,我國相當重視推進數據要素流通,但並無法規的支持、規範、引導,而主要依靠行政性文件,這依然存在很大的立法缺失。當前迫切需要在加快數據產權的規制與數據要素流通方面,創新性地引領全球法規建設的新方向。國內外情況如下:

國際方面:歐盟2016年通過的《一般數據保護條例》(GDPR),是目前最為全面、影響力最大的數據隱私法。 《條例》朝著強化數據主體權利、確保對個人數據使用控制的方向、兼顧數據安全和數據自由流通的兩個方向發展。 GDPR在確認和完善個人的既有權利的基礎上,規定了刪除權(第17條)和可攜帶權(第20條)等,以實現數據主體對其個人數據的更有效控制,但條文並沒有對個人數據的權屬流轉及財產權益分配進行明確。

雖然美國較早開始數據權屬法律保護的製度和理論探索,但相關規範大多去中心化於各類法案。各州立法並不相容,但覆蓋領域較廣,在實際糾紛解決中具備一定的靈活性以鼓勵數據利用。比如,2018年出台的《2018年加州消費者隱私法案》和2020年出台的《2020年加州隱私權法》都加大了對數據權利的確定力度,覆蓋了訪問權、刪除權、知情權等消費者人格隱私權利,強化了數據在流轉中對數據主體的權益保護,這也從側面反映出美國對數據經濟價值利用的許可。日本在2017年制定了《數據使用權限合約指引》,指引充分考慮了數據合約對數據創造的貢獻、存儲和管理的成本負擔等因素,規範了數據交易合約以促進數據交易,這是一個大的進步,但仍未有對數據產權的清晰界定。

在歐洲,《歐盟基本權利憲章》及《通用數據保護條例》將個人數據受保護權視為一種由數據主體享有的特殊權利,其中不包含任何財產權利。雖然《通用數據保護條例》等歐盟法令沒有明確規定數據控制者享有以數據為客體的財產權利,但其數據財產權益可通過數據庫保護、版權法保護、商業秘密保護、合約法保護、競爭法保護等方式得到保護。此外,歐盟委員會發布的文件《建立歐洲數據經濟》致力於引入“數據生產者權利”,賦予數據控制者對非個人數據及匿名化個人數據的對世性財產權利,使其有權對此等數據進行排他利用,其中包括許可他人利用此等數據的權利。在美國,雖然法學界有學者認為應當賦予個人對個人信息的財產權利,但是法院對於此等財產權利通常不予承認。而在部分情形中,美國法院認為企業對其持有的數據享有財產權益。國內外關於數據財產的法治經驗表明,“人財兩分”應當成為構建我國數據財產權制度的核心理論主張。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts