Johanna Cabildo:大型科技公司數據成癮對人工智能的破壞


Johanna Cabildo:Big Tech的數據成癮正在破壞AI

Meta的Llama-4的期望很高。相反,它失望了。與其前任相比,它提供了較弱的推理,更多的幻覺和整體性能下跌。根據D-GN的首席執行官Johanna Cabildo的說法,原因不是缺乏計算或創新,而是數據。

梅塔(Meta)用盡了互聯網的干淨,多樣化和高質量的文本供應,轉向合成數據:AI生成的內容用於培訓新的AI。這創建了一個循環,模型從自己中學習,每個週期都會失去準確性和深度。

其他主要參與者(Openai,Google,Anthropic)也存在著同樣的困境。豐富的現實培訓數據的年齡已經結束。剩下的是合成填充劑。結果,進步正在停滯,進步的幻想是掩蓋了安靜的衰落。

誰擁有數據?

2024年斯坦福AI指數報告說,現在有八家公司控制了全球AI培訓數據和基礎設施的89%。這不僅與市場力量有關。它影響了知識嵌入在AI中的知識,其觀點被排除在外。

接受偏見或狹窄數據集訓練的模型會加劇現實世界中的傷害。 AI工具建立在美國醫療保健記錄中,在其他國家誤診患者。招聘系統以非西方名稱懲罰申請人。面部識別對較深的皮膚的準確性較差,尤其是對於女性而言。過濾沉默的少數方言是令人反感或無關緊要的。

隨著模型更加傾向於合成數據,錯誤會加劇。研究人員警告說,會產生“拋光胡說八道”的遞歸環– 聽起來正確但包含捏造的事實。到2025年初,《哥倫比亞新​​聞評測》發現Google Gemini只有10%的時間才完全準確地引用。這些系統以自己的缺陷輸出訓練越多,它們衰減的速度就越快。

鎖定,鎖定

AI公司在公開知識的骨幹上建立了模型– 書籍,維基百科,論壇甚至新聞文章。但是現在,相同的公司正在擺脫模型和貨幣化訪問權限。

2023年下半年,《紐約時報》(New York Times)起訴了未經授權使用其內容的Openai和Microsoft。同時,Reddit和Stack Overflow輸入了獨家許可交易,使OpenAI可以訪問以前對所有人開放的用戶生成的內容。

這種策略很明確:收穫免費的公眾知識,將其獲利並將其鎖定在API後面。從開放生態系統中受益的同一公司現在限制了訪問權限,同時促進合成數據作為可持續的替代方案,儘管有越來越多的證據表明它會降低模型性能。人工智能無法通過向自己學習而發展。鏡子裡沒有洞察力。

不同的路徑

修復AI的數據危機不需要更多的計算或更大的模型,這需要改變收集,重視和控制數據的方式。

Web3技術提供了一種可能的前進方式。區塊鏈可以跟踪數據的來源。令牌化系統可以公平地補償貢獻知識的人。像Morpheus Labs這樣的項目已經使用這些工具將Swahili語言AI的性能提高了30%,僅通過激勵社區的投入即可。

隱私保護工具(例如零知識證明)增加了另一層信任。它們使得可以在不暴露私人數據的情況下使用敏感信息(例如病歷)培訓模型。這樣可以確保模型可以在道德上學習,同時仍能提供高性能。

這些想法不是投機性的。初創企業已經在使用去中心化的工具來建立世界各地的文化準確,尊重隱私的AI系統。

收回未來

AI正在塑造塑造社會的系統– 教育,醫學,工作和溝通。中心問題不再是AI是否會占主導地位,而是誰控制了它的變化。

隨著人工智能行業面臨綜合數據和壟斷基礎設施的局限性,D-GN等平台提供了一條清晰的前進道路:AI受到人們的培訓,為人們培訓,並為更公正和智能未來服務。

我們是否會允許少數公司回收自己的產出,降低模型質量和構成偏見?還是我們會投資於建立一種新型的數據生態系統,一個重視透明度,公平性和共享所有權?

問題不是機器沒有足夠的數據。問題在於他們使用的數據越來越合成,狹窄和控制。解決方案是將權力歸還給創造有意義內容的人們,並為其獎勵他們。更好的AI從更好的數據開始。更好的數據始於我們。

資訊來源:由0x資訊編譯自出MPOST。版權歸作者Victoria d’Este所有,未經許可,不得轉載

Total
0
Shares
Related Posts