生成AI 的下一步發展是多模型嗎?

原文作者:Shritama Saha,由DeFi 之道編譯。

生成式AI 的出現就像您身邊多了一位個人創意天才。憑藉其分析模式和基於模式開發新內容的卓越能力,生成式AI 可以創造一切,從令人驚嘆的數字藝術到原創音樂作品、人類文本等等。

然而,生成式AI 的炫酷之處也帶來了AI 藝術中復雜的盜版和版權侵權問題。儘管如此,在過去兩年中,該細分市場出現了驚人的增長。

在一次獨家採訪中,OpenCV 首席執行官Satya Mallick 博士告訴Analytics India Magazine,他認為生成式AI 的最大突破是大語言模型或基礎模型的發展,並指出Transformer 模型,例如那些在視覺轉換中使用的模型是該領域的一項重大創新。

根據Mallick 的說法,生成AI 的下一步是多輸入和多媒體輸出。換句話說,多模型方法。

微軟最近推出了一種名為Kosmos-1 的多模型大語言模型(MLLM)。人工智能研究工作室Alethea.AI 推出了CharacterGPT,它可以從文本中生成字符。兩年前,Google AI 還發布了MURAL:Multimodal, Multitask Representations Across Languages 模型,用於圖文匹配。它部署了應用於圖像-文本對的多任務學習,並結合了涵蓋100 多種語言的翻譯對。

然而,馬利克說,“它有兩個基本的限制,包括可以獲得多少數據——是否有辦法避免需要註釋數據和缺乏計算能力——儘管預計未來會增加”。

Mallick 是IIT-Kharagpur 校友,也是加州計算機視覺公司Big Vision 的創始人。早在2006 年,當沒有人真正了解AI 或其巨大潛力時,Mallick 與他人共同創立了TAAZ——一家為美容和時尚行業創建視覺和學習解決方案的計算機視覺公司。

OpenCV 是一個開源計算機視覺和機器學習軟件庫,由英特爾於1999 年創立。英特爾前計算機視覺工程師Gray Bradsky 與主要來自俄羅斯的工程師團隊開發了它。他在英特爾工作期間開發了OpenCV 的第一代迭代。 2002 年,他們發布了該軟件的0.9 版開源版本。

該公司最近推出了兩門新課程,作為其“Kickstarter 活動”的一部分,內容涉及如何使用AI 高效地創作藝術。第一門課程《人人都能AI 藝術生成(AI Art Generation for Everyone)》不需要任何AI 或編程背景,而第二門課程《高級AI 藝術生成(Advanced AI Art Generation》則需要基本的編程知識。

版權和知識產權問題

AI 生成的藝術有能力徹底改變藝術世界並發掘未開發的可能性。然而,它也帶來了盜版和版權侵權的複雜挑戰,引發了人們對所有權和知識產權的擔憂。

最近,像Midjourney 和Stability AI 這樣的圖像生成平台因使用藝術家的作品來訓練他們的生成AI 算法而被起訴,激怒了藝術家社區。與此同時,Shutterstock 通過引入自己的AI 工具採取了更負責任的立場,與Getty Images 形成鮮明對比的是,Getty Images 禁止在生成AI 藝術作品中使用其照片。

Mallick 博士將YouTube 早年與版權威脅的現狀相提並論。他說,與YouTube 類似的解決方案,由像谷歌這樣的大公司參與進來,談判交易並向版權所有者付款,可以在這裡發揮作用。

ChatGPT 與DALL.E

OpenAI 廣受歡迎的聊天機器人ChatGPT 在不到三個月的時間裡獲得了超過1 億用戶,使其成為家喻戶曉的名字。截至2023 年2 月,ChatGPT 的每日訪問量超過2500 萬次。但與ChatGPT 相比,文本-圖像模型(如OpenAI 的DALL-E 或StabilityAI 的Stable Diffusion)的採用率存在明顯差距。

Mallick 解釋說,ChatGPT 擁有如此高采用率的主要原因之一是因為寫作能力是每項工作所需的主要技能,無論你是程序員、作家還是社交媒體經理。在OpenAI 和貝恩公司的幫助下,甚至可口可樂也在使用生成式AI 進行營銷。

“小學學習教授的三項主要技能是——閱讀、寫作和算術,而不是藝術或攝影,因為這些是高級技能。 此外,在文本上訓練NLP 模型更容易,因為它的計算強度低於圖像數據。”

此外,隨著研究人員結合不同的技術和方法,生成式AI 正在鞏固並變得更加複雜。通過利用NLP 和計算機視覺的優勢,Stable Diffusion 模型代表了生成式AI 向前邁出的重要一步。

傳統的生成模型,如生成式對抗網絡(GAN),由於缺乏語言概念,因此理解世界的能力有限。雖然GAN 可以創建逼真的圖像,但它們需要使用特定的數據集進行訓練,例如人臉或貓的圖像。

相比之下,Stable Diffusion 模型利用從文本數據中獲得的知識來理解單詞如何聚集在一起並與世界相關。這使他們能夠在不依賴特定數據集的情況下生成更複雜和多變的圖像。

他說,“Stable Diffusion 模型是生成式AI 的重大進步,正是因為它們不依賴監督學習。 通過利用從無監督學習中獲得的知識,這些模型可以生成複雜多樣的圖像,而無需手動標記數據,從而使其更加靈活。”

Total
0
Shares
Related Posts