人工智慧產業的數據危機


隨著人工智慧(AI)產業的不斷普及,一個迫在眉睫的挑戰也浮出水面——高品質訓練資料的稀缺。這種短缺可能會阻礙人工智慧模型(尤其是大型語言模型)的發展,並可能改變人工智慧革命的軌跡。本文探討了為什麼資料資源的減少令人擔憂,並概述了解決此問題的可能解決方案。

高品質的數據是人工智慧演算法的命脈,有助於其準確性、性能和整體品質。例如,ChatGPT 是一種著名的語言模型,它接受了驚人的570 GB 文字資料的訓練,相當於大約3000 億個單字。同樣,為DALL-E、Lensa 和Midjourney 等AI 影像生成應用程式提供支援的穩定擴散演算法依賴於包含58 億個影像文字對的LIAON-5B 資料集。數據不足可能會導致結果不準確和低於標準。

此外,訓練資料的品質起著至關重要的作用。低品質數據(例如社交媒體貼文或模糊圖像)很容易獲得,但不足以訓練高性能人工智慧模型。從社群媒體平台提取的文字可能受到偏見、偏見、虛假資訊或非法內容的污染,人工智慧模型可能會無意中複製這些內容。例如,微軟嘗試使用Twitter 內容訓練人工智慧機器人,結果導致其產生種族主義和厭惡女性的輸出。

為了減輕這些風險,人工智慧開發人員從書籍、線上文章、科學論文、維基百科和仔細過濾的網路內容等來源中尋求高品質的內容。即使是非常規來源,例如來自自助出版網站Smashwords 的浪漫小說,也已被用來增強Google Assistant 等對話式人工智慧。

數據供應與人工智慧需求

雖然人工智慧產業不斷擴大用於訓練的資料集的規模,但線上資料的可用性成長速度較慢。最近的研究表明,按照目前的人工智慧訓練速度,高品質的文字資料可能會在2026 年之前耗盡。低品質的語言資料可能會在2030 年至2050 年間耗盡,低品質的影像資料可能會在2030 年至2060 年間耗盡。這些預測提高了對人工智慧發展潛在瓶頸的擔憂。

人工智慧領域的風險很高,普華永道估計,到2030 年,人工智慧將為全球經濟貢獻高達15.7 兆美元。然而,迫在眉睫的數據短缺可能會減緩該行業的發展和潛力的實現。

提高數據效率:人工智慧開發人員可以增強演算法,以更有效地利用現有數據。在未來幾年,他們可能會用更少的數據和更低的運算能力實現高效能的人工智慧系統。這種方法不僅可以緩解數據短缺,還有助於減少人工智慧的環境足跡。

合成資料產生:另一個解決方案是使用人工智慧創建專門用於訓練特定人工智慧模型的合成資料。專案已經在利用來自資料生成服務(例如Mostly AI)的合成內容,這種方法將來可能會變得更加普遍。

非免費資料來源的探索:開發人員越來越多地探索免費線上資源以外的內容。大型出版商和離線儲存庫持有的寶貴數據,包括在網路時代之前發布的數百萬條文本,可以作為人工智慧專案的新來源。新聞集團等公司最近採取的與人工智慧開發商談判內容協議的舉措,其中人工智慧公司支付培訓數據的費用,這可能有助於確保內容創作者得到公平的補償並解決權力失衡問題。

人工智慧產業對高品質訓練資料的依賴是顯而易見的,而此類資料的潛在短缺可能對其持續成長構成挑戰。儘管存在擔憂,但情況可能並不像看起來那麼可怕。人工智慧開發人員有多種途徑來提高資料效率、創建合成資料和探索非自由資料來源。這些策略加上人工智慧技術的不斷發展,為減輕數據稀缺相關的風險帶來了希望。隨著人工智慧革命的展開,適應性和創新將成為應對這一新挑戰並確保人工智慧對全球經濟持續貢獻的關鍵。

資訊來源:由0x資訊編譯自CRYPTOPOLITAN。版權所有,作者Benson Mawira所有,未經許可,不得轉載

Total
0
Shares
Related Posts