他本是一位普普通通的高中教師，卻活生生養出一個估值40億美元獨角獸。

而且方法也是非常的獨特——

打造了世界最大的免費開源數據集，卻從未從中收取過一分錢，也婉拒了各類工作的邀請。

他叫舒曼，在德國漢堡市的高中教物理和計算機科學。

兩年前他創立了LAION（相當於CLIP圖文數據集），如今被用於各種生成模型，包括谷歌Imagen、Parti，以及驚艷全球的Stable Diffusion。

就連Stable Diffuision背後公司Stability AI的創始人曾親自來送錢時，他都表現出嗤之以鼻的樣子，認定“這個人一定是瘋了”。

或許他怎麼也沒想到，只不過兩年前靈機一動，就帶來了生成式AI的劇變。

受DALL-E啟發

2021年新年之際，OpenAI重磅推出DALL-E，GPT-3首次成功實現跨界：

只需對著它說上一段話，就能生成對應圖片。

一時間風光無兩，吳恩達在內的科技大佬們都激動了，網友們都稱其為甲方剋星。

但在德國漢堡市郊區的一間房屋內，這位高中教師舒曼（Christoph Schuhmann）卻產生了對數據私有化的擔憂：

如果這一切都集中在一家、兩家或三家公司，那將對社會產生非常糟糕的影響。

當時，OpenAI發表了背後關鍵模型CLIP的論文。論文中顯示，CLIP在4億個圖像-文本對上進行了預訓練，在沒有精細調整的情況下，最終在各種多模態基準中實現高性能。

由此可見數據集對於CLIP的重要性，但OpenAI並沒有進行公開，它只開源了CLIP的代碼和模型權重。

（看來從那時候就已經變得Close了）

於是乎，舒曼就開始在Discord網羅了一群同為AI愛好者的朋友，嘗試複製OpenAI同等水平的「文本-圖像對」數據集。

沒想到這一搞就搞了大半年，直到2021年8月他們首次發布了LAION-400M數據集，裡麵包含了4.13億圖像-文本對。

回顧整個創建過程，舒曼對彭博社這樣形容：

就像是用數百萬張抽認卡來教一個人一門外語。

他們用一個非盈利組織Common Crawl在2014年到2021年期間，抓取的隨機HTML代碼來定位網絡上的圖像，並將這些圖像與描述性文本聯繫起來，最後還得根據一定規則來過濾掉不適合的樣本。

比如，刪除了所有文本長度少於五個字符；圖像小於5KB的的樣本；關鍵字帶有NSFW的……幾週之內，他們就擁有了300萬對圖文對。

數據集發布之後就收到了各種反響，被用於諸多論文和實驗。其中最具代表性的，就是Google Brain去年（2022）發布的Imagen——文本生成圖像的擴散模型。

與此同時，更多機構開始關注到這個非盈利組織並給予資金支持。 2021年他們就收到了HuggingFace的一次性捐贈。

但印象最深的一次，還要屬一個對沖基金經理來到Discord聊天室。

當時他二話不說直接送錢，大概意思是：我給你們支付算力費用，沒有任何附加條件。

舒曼團隊對這個行為嗤之以鼻，甚至覺得他是個瘋子：

一開始我們非常懷疑，但大概一個月後，我們獲得了價值近1萬美元的雲計算服務。

後來，這個所謂的“瘋子”創辦了Stability AI，使用LAION數據集推出了Stable Diffusion，引領了生成式AI的浪潮，順便還拐走了LAION組織的兩個研究人員。

如今Stability AI正在尋求40億美元（折合276億元）估值，這主要歸功於LAION提供的數據。

據彭博社消息，舒曼卻並沒有從LAION中獲利，原因很簡單：不感興趣，希望保持這份工作的獨立性。

因此他還婉拒了各類工作邀請，依舊選擇在德國漢堡當一名普普通通的高中老師。

本人：數據集不應該被監控

即便如此，隨著LAION知名度打響，他還是避免不了地捲入到各種紛擾之中。

目前，LAION已經發布了10項數據集，最具代表性的就是去年3月發布的LAION-5B，由58.5億個圖像文本組成，是當前最大的免費開源數據集。

作為LAION-400M的繼任者，它收到了來自HuggingFace、Stability AI以及Doodlebot資助。

結果一發布就遭到了不小的爭議，網友們紛紛質疑其數據未經整理，導致充斥大量的非法內容，對此LAION工程師Romain Beaumont回應：

非標註數據集是自我監督學習的基礎，這是機器學習的未來。沒有人工標註的圖像/文本是一項功能，而非錯誤。

早在Imagen發佈時，也專門針對LAION-400M做出警示：因為依賴於這種未經整理的網絡數據，集成了大模型的社會偏見和限制，因此不適合公開使用。

據彭博社消息，為了打造LAION，舒曼團隊從亞馬遜網絡服務、Shopify等公司獲取視覺數據，還有包括YouTube縮略圖、各類新聞網站上的內容。

對此舒曼表示，任何在網上免費提供的東西都是公平競爭，歐盟也沒有人工智能法規。

更何況，也沒有人知道OpenAI實際上用什麼樣的數據集訓練AI的。

目前，LAION被迫捲入兩場訴訟之中，一起是Stability AI與Midjourney等集體訴訟，被指使用藝術家的版權圖片來訓練他們的模型；

另一起是Getty Images起訴Stability AI，稱其1200萬張照片被LAION取走，並用來訓練Stable Diffusion。

而舒曼將LAION比作大信息技術海嘯之上一艘“小型研究船”，採取海下的樣本向世界展示。

其實早在構建數據庫時，他們就在運行一個自動化過濾工具，不過舒曼感興趣的不是清理，而是從這些資產中學習。

我們本可以從公佈的數據中過濾掉暴力，但我們決定不這樣做，因為這將加快暴力檢測軟件的開發。

現在更多關於監管的建議在推動，各個科技大廠也在採取相應的措施，比如英偉達就開源了護欄工具，來防止大模型來胡說八道。

但在舒曼看來，數據集不應該被監控。這也正是當時創建LAION時候的初心。

他還警告，如果我們試圖放慢速度、過度監管，就會有很大的危險，最終只有少數大公司能負擔得起所有的正式要求。

前段時間，在LAION與全球志願者的合力之下，他們完成了ChatGPT最大開源平替OpenAssistant的發布。

60萬餘條訓練數據全部由人工生成，涵蓋了廣泛的話題和語言風格，一時間引發眾人關注，HuggingFace也直接拿來用來構建它自己的聊天軟件HuggingChat。

拿著德國鐵飯碗

不可否認的是，他已經在用開源數據集，加劇了生成式AI的浪潮。

但在舒曼的個人網站上，看到的只是一位兩個孩子的父親，在德國當著終身製公務員，遊走於中學校之間講授物理和計算機科學。

舒曼擁有維也納大學計算機科學與物理學學位。在學習這兩個專業之前，他還學了心理學。（大概完成了50%的學士學位然後就轉專業了）。

除此之外，他還在學習表演，製作了一部關於孩子學習的紀錄片「Schools of Trust」。

最近，這位高中教師也沒閒著，他還將作為2023年智源大會嘉賓參與邀請報告與線上論壇環節。

參考鏈接：
[1]https://laion.ai/blog/laion-400-open-dataset/
[2]https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns
[3]http://christoph-schuhmann.de/
[4]https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/
[5]https://laion.ai/projects/

來源：元宇宙之心

高中教師養出40億美元超級獨角獸Stable Diffusion背後數據集創建者

受DALL-E啟發

本人：數據集不應該被監控

拿著德國鐵飯碗

扎克伯格計劃再次重組Meta的人工智能業務

現在XRP錢包94%被出售，但這或許會有所不同的原因在於此

失去上漲趨勢後，比特幣攤位超過$112,000

索拉納新聞：Solana 達到100,000 TP

《社交網絡》中的不幸雙子兄弟，成功炒幣與上市

以太坊：華爾街與人工智能交彙的中心地帶

Unilabs Fund提升Litecoin開採，Cardano價格趨勢看跌，5000萬美元出售牆

首位發言人參加邁阿密Blockchain Futurist Conference，這是美國下一個重要的Web3活動

高中教師養出40億美元超級獨角獸Stable Diffusion背後數據集創建者

受DALL-E啟發

本人：數據集不應該被監控

拿著德國鐵飯碗

Related Posts