馬斯克硬剛OpenAI，用戶慘遭礦池魚之殃

來源：字母榜，作者：畢安娣，編輯：王靖

圖片來源：由無界AI‌ 生成

只聽說過社交媒體想方設法讓用戶多停留的，沒聽說過主動給人加個上限的。如今開眼了，埃隆·馬斯克正在給所有推特用戶加“未成年人保護”，而這一切，居然是被AI逼的？

如今推特用戶每天最多能瀏覽多少推特，不取決於手速或者捨不捨得熬夜，而是有一個明確的數字：已驗證（也就是付費的“藍鳥”服務）賬戶10000條、未驗證賬戶1000條，而新註冊的未驗證賬戶只有500條。

就這，還是馬斯克面對憤怒的用戶，兩次提高後的標準。至於原因，是“為了解決極端水平的數據抓取和系統操縱問題”。

他指的正是AI公司們，為了訓練模型，這些企業需要大量數據作為餵養的飼料。去年12月，馬斯克切斷了與OpenAI的數據聯繫，今年4月又指責微軟非法使用推特的數據。

在馬斯克為阻止數據抓取採取激進措施的同時，OpenAI正在面臨一項集體訴訟。訴訟的原告有16名，都是個人，換句話說，都是普通的互聯網衝浪人。他們指控OpenAI秘密地“從互聯網抓取了3000億字詞”，未經允許從互聯網那個用戶那裡竊取“大量私人信息”，以培訓ChatGPT。

一邊是互聯網用戶和多年來增持大量UGC內容的平台，另一面是新興的AIGC企業，一場圍繞數據抓取、隱私安全的戰爭已經打響。

週五週五，敲鑼打鼓。好不容易要周末了，推特的用戶卻傻了，屏幕上顯示報錯信息，提醒其已經超過了“速率限制”，違反了推特的規則，查看了過多推文。

人們壓根不知道這是什麼意思，推特老闆馬斯克站了出來，表示的確是有速率限制，而且宣布：為了解決極端水平的數據抓取和系統操縱問題，已驗證、未驗證、新註冊未驗證賬戶每天的瀏覽上限是6000、600和300條推文。

在此之前，馬斯克剛宣布推特開始禁止未登錄的用戶瀏覽內容，用戶尚且能接受。限制實錘，用戶麻了，繼而看著這驗證與否的區別對待，眉毛挑起來了：你個老六該不會是想用這招推行“藍鳥訂閱”吧？在評論區，不止一位用戶評測：“現在得用錢制勝了？”

不滿的聲音很大，推特的競品Hive、Mastodon、Tumblr等出現在熱門話題裡，一張推特墓碑的梗圖被大量使用。爭議聲中，馬斯克兩次提高標準至驗證用戶10000條瀏覽、未驗證用戶1000條。

一個馬斯克的高仿號調侃道：“我設置限制，是因為你們這些推特成癮者需要出去走走。我這是在為世界做好事啊”。這種上價值的思路好，馬斯克反手就是一個轉發，自己還單獨發了條“去拜訪下你的朋友和家人吧”。

不過玩笑歸玩笑，馬斯克為自己的這次“測試”給出了明確的解釋：應對數據爬取。用戶的不滿，也在於限流的做法是否有效，而不在數據爬取的問題上。

AI初創公司跑來推特“扒數據”的情況有多嚴重呢？馬斯克在一條推文中說，流量大幅上漲，推特不得不啟用備用服務器：“在緊急情況下啟用大量在線服務器，僅僅是為了給某些AI初創公司高得離譜的估值幫忙，這太令人惱火了。”

在限流風波的前一天，Epic Games的CEO蒂姆（Tim Sweeney）還發推抱怨推特也在建牆，馬斯克回复：“數百個（甚至更多）阻止正在極其激進地爬取推特數據，到了影響用戶體驗的地步。我們應該怎麼做？我對所有想法都保持開放。”

剛才還在抱怨的蒂姆，很快就給出了認真的建議，如在推特的服務條款中加入禁止數據爬取、以信息安全工程保護平台，以及針對大規模濫用推特的公司採取法律行動。

值得注意的是，馬斯克在回復中提到，“絕對”會對那些竊取數據的人採取法律行動：“（Optimism地說）從現在起2到3年，期待在法庭上看到他們。”

不管“為付費訂閱添柴”的猜想是不是以小人之心度了馬斯克之腹，馬斯克高舉用戶隱私大旗之外，多少有可能抱有私心。 4月，馬斯克被傳出成立X.AI新人工智能公司，要對抗ChatGPT。如果真的要訓練大語言模型，推特的用戶數據，當然是只給自己用最好。

不論如何，主動給平台限流都做得出來，馬斯克已經做好準備，要和AI初創公司們硬剛到底了。

就在馬斯克重拳出擊給全平台限流的時候，這場AICG熱潮的“始作俑者”、ChatGPT的造物主OpenAI，正成交量入一場集體訴訟中。

這起訴訟在美國加州北區地方法院發起，原告16人，均為匿名，均為個人。訴狀很長，足足有157頁，以斯蒂芬·霍金的一句話作為開頭：“強大人工智能的崛起，要么是人類有史以來最好的事，要么是最糟的。”被告除了OpenAI，還有為其註資上百億美元的微軟。

核心指控是，ChatGPT使用從互聯網上收集的數據來“訓練其技術”時，侵犯了“無數人的版權和隱私。”

起訴書中稱，OpenAI從互聯網上秘密抓取3000億字詞，竊聽了“書籍、文章、網站和帖子，包括未經同意獲得的個人信息”，違反了隱私法。其中就提到了OpenAI爬取大量網絡數據，包括社交媒體中的數據。

他們還指出OpenAI有個專有AI語料庫，增持了大量個人數據，包括從Reddit帖子及其鏈接到網站中獲取的數據。

這是訓練模型方面的指控，此外，原告還稱用戶與OpenAI的產品的互動、在產品中的私人信息，也都被OpenAI非法訪問、大規模盜用。

這已經不是OpenAI第一次在美國面臨集體訴訟。去年11月，就有Github程序員對Github、OpenAI和微軟發起集體訴訟的事件，指控OpenAI涉嫌違反開源許可，使用他們貢獻的代碼訓練專有AI工具GitHub Copilot。

彼時ChatGPT還沒有上線，如今回頭看，AI訓練的問題那時就已經暴露。如今，最新的集體訴訟針對的是用戶更為廣泛、被侵犯人群也更加廣泛（基本上就是全員受害）的ChatGPT，更重要的是，在AIGC的狂潮之下，任何法律先例都可能影響未來。

代理該案的克拉克森公益律師事務所（Clarkson）在一封聲明中，將這次的集體訴訟稱作“里程碑式”的聯邦案件，是對整個人工智能的警告。

從這個角度看，OpenAI肩上的擔子的確很重。

OpenAI因數據抓取和隱私安全已經惹上諸多麻煩，平台上鎖、用戶翻臉都只是冰山一角。

在歐洲，OpenAI已經遭到了多個國家的調查，甚至在今年4月，意大利擔心ChatGPT會違反歐洲數據保護法，暫時封禁過ChatGPT。

針對整個人工智能領域的監管正在推進。法國於5月推出人工智能行動計劃，其中在AIGC方面，法國隱私監管機構特別關註一些AI模型從互聯網上蒐集數據、建立數據集，用來訓練大語言模型的做法。

最重磅的是歐盟人工智能監管法案（EU AI Act），目前已經走向收尾階段。該法案將有可能成為全球AI治理的範本。

平台、用戶、監管，三股力量已經形成合圍之勢，誓要儘早給AIGC立立規矩，並且要從大模型訓練這個起點開始。

一方面，時間緊迫，AIGC發展得太快。

馬斯克說“估值高得離譜的AI初創公司”指的是誰，咱也不知道。但這話一出，中箭的確實不少，畢竟現在AIGC領域融資一波接一波，全是熱錢。

在初創公司裡，OpenAI估值近300億美元，融資總規模113億美元，是AIGC裡最有錢的；然後是Anthropic，第二有錢，估值超過40億美元。而前幾天才以13億美元融資震驚矽谷的Inflection，估值也已經有40億美元，而它成立不過一年多。

大的可能還在後頭。 Inflection用的是自家的大語言模型，這次13億美元到手，宣布要搞2.2萬張英偉達H100芯片，做全球最大的人工智能集群。如此大規模算力，目標參數量和數據集勢必也是驚人的。

另一方面，ChatGPT橫空出世，等它暴露出問題時，想“修補”並不是那麼容易。 OpenAI的幾代大語言模型，GPT-2數據集有40GB文本，GPT-3（也就是ChatGPT發佈時用的模型）訓練數據有570GB，至於今年才發布的GPT-4，數據集大小壓根沒透露。

海量的數據並沒有從一開始就做好記錄。谷歌前研究科學家尼西亞·桑巴斯萬曾在採訪中表示，科技公司不會記錄它們是如何收集或註釋AI訓練數據的，甚至不知道數據中心化到底有什麼。

木已成舟的ChatGPT就像一個黑匣子，而且是一個打造在密室裡的黑匣子，如今要做透明化、隱私保護，比如羅列到底爬取了哪些數據、闡釋使用過程中會如何使用這些數據、應用戶要求刪除某條數據，其實很難。

互聯網衝浪人和監管死咬OpenAI們，還有一個不容忽視的原因——在社媒發展壯大的那些年，對個人網絡數據保護的意識還在襁褓中，待要抗衡時，發現已錯過太遠。

當扎克伯格2018年首次坐上國會聽證席時，他的社交媒體平台Facebook已經推出了14年。彼時Facebook身陷“劍橋醜聞”，公司首席技術官稱有8700萬用戶受影響。那也是一次因數據抓取釀成的大錯。

等到今年5月阿爾特曼坐上美國國會聽證席，議員頻頻表達著在社媒時代行動不足的悔恨，意思很明了：這一次，就算不能超前，也至少要跟上AIGC的腳步。

一個接一個的大模型仍然在訓練當中，數據抓取是一根線頭，攥住它才有望理清AIGC的糊塗賬。

參考資料：

1、新浪科技：《馬斯克跟微軟槓上了？ Twitter稱微軟非法使用其數據》

2、黑馬程序員：《這些程序員把GitHub告了要求索賠649億》

3、界面新聞：《歐盟AI法案出爐，OpenAI等公司可打幾分，核心爭議點有哪些？》

4、騰訊科技：《對數據的渴求正反傷OpenAI？多國指控其違反數據保護法》

5、網易科技：《ChatGPT在意大利恢復上線但OpenAI的監管麻煩才剛剛開始》

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

馬斯克硬剛OpenAI，用戶慘遭礦池魚之殃

扎克伯格計劃再次重組Meta的人工智能業務

現在XRP錢包94%被出售，但這或許會有所不同的原因在於此

失去上漲趨勢後，比特幣攤位超過$112,000

索拉納新聞：Solana 達到100,000 TP

《社交網絡》中的不幸雙子兄弟，成功炒幣與上市

以太坊：華爾街與人工智能交彙的中心地帶

Unilabs Fund提升Litecoin開採，Cardano價格趨勢看跌，5000萬美元出售牆

首位發言人參加邁阿密Blockchain Futurist Conference，這是美國下一個重要的Web3活動

馬斯克硬剛OpenAI，用戶慘遭礦池魚之殃

Related Posts