來源:字母榜,作者:畢安娣,編輯:王靖
圖片來源:由無界AI 生成
只聽說過社交媒體想方設法讓用戶多停留的,沒聽說過主動給人加個上限的。如今開眼了,埃隆·馬斯克正在給所有推特用戶加“未成年人保護”,而這一切,居然是被AI逼的?
如今推特用戶每天最多能瀏覽多少推特,不取決於手速或者捨不捨得熬夜,而是有一個明確的數字:已驗證(也就是付費的“藍鳥”服務)賬戶10000條、未驗證賬戶1000條,而新註冊的未驗證賬戶只有500條。
就這,還是馬斯克面對憤怒的用戶,兩次提高後的標準。至於原因,是“為了解決極端水平的數據抓取和系統操縱問題”。
他指的正是AI公司們,為了訓練模型,這些企業需要大量數據作為餵養的飼料。去年12月,馬斯克切斷了與OpenAI的數據聯繫,今年4月又指責微軟非法使用推特的數據。
在馬斯克為阻止數據抓取採取激進措施的同時,OpenAI正在面臨一項集體訴訟。訴訟的原告有16名,都是個人,換句話說,都是普通的互聯網衝浪人。他們指控OpenAI秘密地“從互聯網抓取了3000億字詞”,未經允許從互聯網那個用戶那裡竊取“大量私人信息”,以培訓ChatGPT。
一邊是互聯網用戶和多年來增持大量UGC內容的平台,另一面是新興的AIGC企業,一場圍繞數據抓取、隱私安全的戰爭已經打響。
01
週五週五,敲鑼打鼓。好不容易要周末了,推特的用戶卻傻了,屏幕上顯示報錯信息,提醒其已經超過了“速率限制”,違反了推特的規則,查看了過多推文。
人們壓根不知道這是什麼意思,推特老闆馬斯克站了出來,表示的確是有速率限制,而且宣布:為了解決極端水平的數據抓取和系統操縱問題,已驗證、未驗證、新註冊未驗證賬戶每天的瀏覽上限是6000、600和300條推文。
在此之前,馬斯克剛宣布推特開始禁止未登錄的用戶瀏覽內容,用戶尚且能接受。限制實錘,用戶麻了,繼而看著這驗證與否的區別對待,眉毛挑起來了:你個老六該不會是想用這招推行“藍鳥訂閱”吧?在評論區,不止一位用戶評測:“現在得用錢制勝了?”
不滿的聲音很大,推特的競品Hive、Mastodon、Tumblr等出現在熱門話題裡,一張推特墓碑的梗圖被大量使用。爭議聲中,馬斯克兩次提高標準至驗證用戶10000條瀏覽、未驗證用戶1000條。
一個馬斯克的高仿號調侃道:“我設置限制,是因為你們這些推特成癮者需要出去走走。我這是在為世界做好事啊”。這種上價值的思路好,馬斯克反手就是一個轉發,自己還單獨發了條“去拜訪下你的朋友和家人吧”。
不過玩笑歸玩笑,馬斯克為自己的這次“測試”給出了明確的解釋:應對數據爬取。用戶的不滿,也在於限流的做法是否有效,而不在數據爬取的問題上。
AI初創公司跑來推特“扒數據”的情況有多嚴重呢?馬斯克在一條推文中說,流量大幅上漲,推特不得不啟用備用服務器:“在緊急情況下啟用大量在線服務器,僅僅是為了給某些AI初創公司高得離譜的估值幫忙,這太令人惱火了。”
在限流風波的前一天,Epic Games的CEO蒂姆(Tim Sweeney)還發推抱怨推特也在建牆,馬斯克回复:“數百個(甚至更多)阻止正在極其激進地爬取推特數據,到了影響用戶體驗的地步。我們應該怎麼做?我對所有想法都保持開放。”
剛才還在抱怨的蒂姆,很快就給出了認真的建議,如在推特的服務條款中加入禁止數據爬取、以信息安全工程保護平台,以及針對大規模濫用推特的公司採取法律行動。
值得注意的是,馬斯克在回復中提到,“絕對”會對那些竊取數據的人採取法律行動:“(Optimism地說)從現在起2到3年,期待在法庭上看到他們。”
不管“為付費訂閱添柴”的猜想是不是以小人之心度了馬斯克之腹,馬斯克高舉用戶隱私大旗之外,多少有可能抱有私心。 4月,馬斯克被傳出成立X.AI新人工智能公司,要對抗ChatGPT。如果真的要訓練大語言模型,推特的用戶數據,當然是只給自己用最好。
不論如何,主動給平台限流都做得出來,馬斯克已經做好準備,要和AI初創公司們硬剛到底了。
02
就在馬斯克重拳出擊給全平台限流的時候,這場AICG熱潮的“始作俑者”、ChatGPT的造物主OpenAI,正成交量入一場集體訴訟中。
這起訴訟在美國加州北區地方法院發起,原告16人,均為匿名,均為個人。訴狀很長,足足有157頁,以斯蒂芬·霍金的一句話作為開頭:“強大人工智能的崛起,要么是人類有史以來最好的事,要么是最糟的。”被告除了OpenAI,還有為其註資上百億美元的微軟。
核心指控是,ChatGPT使用從互聯網上收集的數據來“訓練其技術”時,侵犯了“無數人的版權和隱私。”
起訴書中稱,OpenAI從互聯網上秘密抓取3000億字詞,竊聽了“書籍、文章、網站和帖子,包括未經同意獲得的個人信息”,違反了隱私法。其中就提到了OpenAI爬取大量網絡數據,包括社交媒體中的數據。
他們還指出OpenAI有個專有AI語料庫,增持了大量個人數據,包括從Reddit帖子及其鏈接到網站中獲取的數據。
這是訓練模型方面的指控,此外,原告還稱用戶與OpenAI的產品的互動、在產品中的私人信息,也都被OpenAI非法訪問、大規模盜用。
這已經不是OpenAI第一次在美國面臨集體訴訟。去年11月,就有Github程序員對Github、OpenAI和微軟發起集體訴訟的事件,指控OpenAI涉嫌違反開源許可,使用他們貢獻的代碼訓練專有AI工具GitHub Copilot。
彼時ChatGPT還沒有上線,如今回頭看,AI訓練的問題那時就已經暴露。如今,最新的集體訴訟針對的是用戶更為廣泛、被侵犯人群也更加廣泛(基本上就是全員受害)的ChatGPT,更重要的是,在AIGC的狂潮之下,任何法律先例都可能影響未來。
代理該案的克拉克森公益律師事務所(Clarkson)在一封聲明中,將這次的集體訴訟稱作“里程碑式”的聯邦案件,是對整個人工智能的警告。
從這個角度看,OpenAI肩上的擔子的確很重。
OpenAI因數據抓取和隱私安全已經惹上諸多麻煩,平台上鎖、用戶翻臉都只是冰山一角。
在歐洲,OpenAI已經遭到了多個國家的調查,甚至在今年4月,意大利擔心ChatGPT會違反歐洲數據保護法,暫時封禁過ChatGPT。
針對整個人工智能領域的監管正在推進。法國於5月推出人工智能行動計劃,其中在AIGC方面,法國隱私監管機構特別關註一些AI模型從互聯網上蒐集數據、建立數據集,用來訓練大語言模型的做法。
最重磅的是歐盟人工智能監管法案(EU AI Act),目前已經走向收尾階段。該法案將有可能成為全球AI治理的範本。
03
平台、用戶、監管,三股力量已經形成合圍之勢,誓要儘早給AIGC立立規矩,並且要從大模型訓練這個起點開始。
一方面,時間緊迫,AIGC發展得太快。
馬斯克說“估值高得離譜的AI初創公司”指的是誰,咱也不知道。但這話一出,中箭的確實不少,畢竟現在AIGC領域融資一波接一波,全是熱錢。
在初創公司裡,OpenAI估值近300億美元,融資總規模113億美元,是AIGC裡最有錢的;然後是Anthropic,第二有錢,估值超過40億美元。而前幾天才以13億美元融資震驚矽谷的Inflection,估值也已經有40億美元,而它成立不過一年多。
大的可能還在後頭。 Inflection用的是自家的大語言模型,這次13億美元到手,宣布要搞2.2萬張英偉達H100芯片,做全球最大的人工智能集群。如此大規模算力,目標參數量和數據集勢必也是驚人的。
另一方面,ChatGPT橫空出世,等它暴露出問題時,想“修補”並不是那麼容易。 OpenAI的幾代大語言模型,GPT-2數據集有40GB文本,GPT-3(也就是ChatGPT發佈時用的模型)訓練數據有570GB,至於今年才發布的GPT-4,數據集大小壓根沒透露。
海量的數據並沒有從一開始就做好記錄。谷歌前研究科學家尼西亞·桑巴斯萬曾在採訪中表示,科技公司不會記錄它們是如何收集或註釋AI訓練數據的,甚至不知道數據中心化到底有什麼。
木已成舟的ChatGPT就像一個黑匣子,而且是一個打造在密室裡的黑匣子,如今要做透明化、隱私保護,比如羅列到底爬取了哪些數據、闡釋使用過程中會如何使用這些數據、應用戶要求刪除某條數據,其實很難。
互聯網衝浪人和監管死咬OpenAI們,還有一個不容忽視的原因——在社媒發展壯大的那些年,對個人網絡數據保護的意識還在襁褓中,待要抗衡時,發現已錯過太遠。
當扎克伯格2018年首次坐上國會聽證席時,他的社交媒體平台Facebook已經推出了14年。彼時Facebook身陷“劍橋醜聞”,公司首席技術官稱有8700萬用戶受影響。那也是一次因數據抓取釀成的大錯。
等到今年5月阿爾特曼坐上美國國會聽證席,議員頻頻表達著在社媒時代行動不足的悔恨,意思很明了:這一次,就算不能超前,也至少要跟上AIGC的腳步。
一個接一個的大模型仍然在訓練當中,數據抓取是一根線頭,攥住它才有望理清AIGC的糊塗賬。
參考資料:
1、新浪科技:《馬斯克跟微軟槓上了? Twitter稱微軟非法使用其數據》
2、黑馬程序員:《這些程序員把GitHub告了要求索賠649億》
3、界面新聞:《歐盟AI法案出爐,OpenAI等公司可打幾分,核心爭議點有哪些? 》
4、騰訊科技:《對數據的渴求正反傷OpenAI?多國指控其違反數據保護法》
5、網易科技:《ChatGPT在意大利恢復上線但OpenAI的監管麻煩才剛剛開始》
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載