原文來源:差評
圖片來源:由無界AI 生成
幾天前,谷歌突然更新了隱私政策,明確表示要用網上所有的公開數據,來訓練自家的AI 模型。
也就是說,根據新政策,你在網上公開發布的任何信息都有可能被谷歌抓取,包括但不限於你發的帖子、搜索的關鍵詞以及看過的視頻。
這不妥妥互聯網裸奔嗎
OpenAI 前腳剛被起訴數據侵權還沒多久,谷歌就馬上著急來撞槍口。
在這個節骨眼上整這麼一出,大概率跟數據收費脫不了關係,谷歌再不薅這波免費的羊毛,之後很有可能就薅不到咯。
這事兒啊,自打ChatGPT 爆火後再也沒消停過。
世超先給大傢伙兒捋捋時間線。
今年3 月的時候呢,馬斯克帶頭打響了數據收費第一槍,宣稱推特的API 接口不再免費了。
緊接著,美版貼吧 Reddit 也按耐不住了。
上個月Reddit 鬧得沸沸揚揚的 “ 停電 ” 運動,就是為了抗議官方的API 收費政策。
之前世超寫這事兒的時候還在猜測, Reddit 官方最後會不會作出讓步。
從現在的後續看來,大多第三方軟件已經確認關停, Reddit 是鐵了心要數據收費。
再到這段時間,推特又整了限流的么蛾子,沒有花錢認證的帳號每天就只能閱讀600 條貼文,目的呢也是為了防止機器人抓取用戶數據。
難道數據就這麼值錢嗎?
世超覺著啊,還是AI 的鍋。
AI 大模型要想變得更聰明,就需要源源不斷的數據去 “ 餵養 ” 。
現在能做大模型的,要不就是自己家有數據,像百度、阿里和騰訊;要不就是爬人家的數據,這裡點名OpenAI 。
因為很多網站都開放有免費的API 接口,才給了微軟、 OpenAI 這些巨頭可乘之機。
但今時不同往日, AI 在重新賦予數據價值以後,有籌碼在手上的平台當然不樂意被白嫖了。
甚至於Reddit 的CEO 霍夫曼都把話搬上明面兒了:就是不想免費提供數據給巨頭們。
所以, OpenAI 被起訴估計也是平台們聯合起來想要 “ 殺雞儆猴 ”, 治一治AI 的這股歪風邪氣。
不過,法律這次會不會站在OpenAI 這邊,還真不好說。
因為數據版權涉及到3 個關鍵的問題:
1.數據爬蟲的行為本身是否是合法的?
2.數據是否受到版權的保護?
3.用數據生成的作品是否受到版權保護?
首先第一個問題,要獲取數據,無非就是付費購買,或者收集網上公開的數據。
但需要注意的是,公開的數據並不能等同於授權使用,而且還要看網站是不是有相關的條款對數據爬蟲行為做出了限制。
要是直接越過版權方的同意,或者繞過了網站限制強行獲取數據,那就是妥妥的非法獲取計算機信息系統數據罪。
即使OpenAI 聲稱爬的是公開網站的數據,數據爬蟲行為本身是否合法,還要看版權方是不是給了授權。
其次,關於數據本身是否受到版權保護。
根據美國的版權法,如果AI 模型訓練所用的數據符合 “ 合理使用 ” 的範圍,那就不會構成侵權。
但問題就出在這 “ 合理使用 ” 上。
“ 合理使用 ” 的構成要件包括是否涉及商用、作品本身是否受版權法保護、所使用部分的數量以及使用之後對作品本身造成的影響這四個標準。
像什麼新聞報導、學術研究,適當引用是完全ok 的。
可AI 模型上億萬級別的數據使用量、已經商業化的AI 軟件,還能算作 “ 合理使用 ” 嗎?
最後,就是 AI 生成作品的版權問題。
因為訓練數據版權理不清, AI 生成的內容自然也會存在版權爭議。前幾天, Steam 還下架了一款使用了AIGC 生成的遊戲,理由就是版權有問題。
咱就拿AI 繪畫舉例子,圖像生成相當於一個拆分又重組的過程,雖然最後的結果是完全 “ 新 ” 的,但仍然會保留訓練圖像的某些特徵。
但這種情況到底算不算侵權,各國的說法現在也是眾說紛紜。
因為訓練數據是人家的,美國版權局認定AI 生成的作品不受版權法保護,甚至還可能侵犯著作權。
而日本政府的態度則截然不同,表示日本法律不保護AI 訓練所用數據的版權。
至少在現行的法律框架下,上面這些問題很難得到一個統一的答案。
既然監管不給力,那版權方就只有提刀自己乾了,該收費的收費,該追償的也趕緊追償。
▼OpenAI 被起訴的文件
可以預見,在推特和Reddit 之後,可能還會有更多的內容版權方豎起高牆。
這事兒呢,對於平台來說,當然是個掙錢的新路子,科技巨頭再不濟也就是多砸點兒錢。
但對於整個互聯網來說,可算不上一件好事兒。
當年,互聯網就是帶著開放共享的基因出生的,像什麼維基百科、推特,之前常年免費提供API 接口,開發者調用數據很方便。
但現在如果讓數據收費這麼一搞,結果會怎麼樣還真不好說。
畢竟,小開發者沒有支付巨額數據費的能力,如果創新只在巨頭里發生,這不就是純純搞壟斷了?
最主要的是,可能很多現在免費能看到的網站之後就要花錢才能看了,這才是對咱們這種普通用戶的真實暴擊。
其實吧,數據收費這事兒也不能全怪平台,實在是讓AI 巨頭給 “ 搶 ” 怕了,算是一種自保的無奈之舉。
雖然這次谷歌有“隱私政策”護體,但結果如何還真不好說。
所以,關鍵還要是看監管的大錘什麼時候能落下。
釐清數據版權,是AI 要發展始終繞不過去的一道坎兒,而現在,似乎也同樣關乎著互聯網的未來走向。
不知道AI 這艘船,會將我們推向一個更開放,還是更封閉的時代?
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載