Midjourney CEO大衛·霍爾茲:AI應該是我們自身的延伸

騰訊科技訊7月7日,MidjourneyCEO大衛·霍爾茲在2023世界人工智能大會上發言,認為AI將成為創造和想像力的新的載體和引擎。通過AI,我們有可能放大整個人類種族的原始想像力。針對公司的名字Midjouney,霍爾茲表明它來自於道教著作《莊周》中的中道概念,他認為中國古典文學帶來了很多最美麗的,最深沉的思想。

目前Midjouney正在進行5.3版本的開發,並會在版本6中提供一系列對生成圖像進行縮放,平移來自動生成新的不同角度相關圖像的能力,並且可以控制生成圖像的隨機性,讓作者在詭異的美和令人迷惑的畫面間找到平衡。在未來,Midjourney的目標是發展出三維,實時,動態可調的生成圖像。

關於技術的未來,他並不確定可能的走向。但融合模型(圖像/文字用的模型進行融合)可能是比較可能的發展方向。他認為AI的這次技術進步的潛力還沒有完全發揮出來,比現在強上十倍,百倍的進步是必然的。

他認為到目前為止技術上的大部分進步都來自於試圖讓人變得更好,試圖放大人的能力。因此AGI也許並非是必要的,AI作為我們人的延伸,賦能人類才是更好的選擇。

以下為演講實錄:

大家好,我是大衛·霍爾茲,Midjourney的CEO和創始人. 我很榮幸受上海市政府邀請我參加這次人工智能世界大會,並很期待加入今天的活動。

世界上最重要的技術之一就是引擎。引擎是一種用於產生、轉移或放大的機器。我們使用引擎在各種工廠建造各種各樣的交通工具,如汽車、飛機和船隻。而現在,是時侯把人工智能看作一種新型引擎了。

在MidJourney,我們正試圖用這種引擎來打造一種新型的載體,這載體不是交通工具,而是承載我們的思維和想像力的載體。

就像你可以用足球轉動世界,但仍需要腿去踢球一樣。我們希望能創造一種新型的載體,你可以用它來進行想像,而不僅是產生運動。在我們創造之前,我們必須首先去想像,想像我們能成為什麼,我們可以去哪裡,什麼是可能的。我認為我們製造的工具,比任何東西都更專注於放大想像力的原初力量。我們有機會放大的不僅僅是任何個體,而是整個人類種族的想像力。我曾多次隨Leap Motion(手勢識別設備)訪問過中國,Leap Motion的第一個辦公室就在上海。上海有一種特殊的感覺,我非常喜歡,它似乎是舊金山、洛杉磯、紐約以及一些歐洲老城市的組合體。它擁有一種古老歷史和文化的力量,同時也有一種未經雕琢的未來感。這真的很酷,這是我最喜歡的兩件事。

事實上,我基本上是個科幻小說的狂熱讀者,而我看到的最瘋狂的設定來自於中國古典文學。我認為古代中國文學擁有人類歷史上最美麗、最深沉的思想。 MidJourney(中道)這個名字實際上源於我最喜歡的一個古老道家文本的翻譯,它出自《莊周》。比如《莊周夢蝶》、《子非魚》、《庖丁解牛》、《不材之木》、《空舟》,我喜歡這些。我喜歡MidJourney這個名字的原因是,我覺得人們有時容易忘記過去,可能會感到迷茫,對未來感到不確定。但我更多的是覺得我們其實是在中途旅程,我們來自豐饒美麗的過去,前方是荒野而不可思議的未來。

我們最近發布了Mid Journey 5.2版本,現在正進行著5.3版本的開發。之後我希望能發布一個重大更新版本,我希望稱之為版本6。我們引入的最新特性是關於圖像的縮放,並在你縮小的同時,可以創造不同的故事和環境,圍繞中心主題進行變化。這週我們將發布一個類似的功能,它允許你移動相機,然後當你橫向移動相機時,可以不斷改變提示,然後講述故事,我們還發布了這個奇特的控制系統,可以結合這些新功能來更好地控製圖像生成。

你也可以將其與風格控制相結合。 “風格控制”略有點混淆,但是這個想法是,你想要告訴AI想生成多美的產物,你要承擔多大的風險來製造這種美。哪怕它是非常規的,混亂的,奇特的,但有時結果真的非常出色。

有時你需要勇於冒險,這讓人們可以控制風險性和美的隨機性之間的平衡,或者是平衡對圖像的常規普遍美予以多少關注。我們還引入了一種我們稱之為渦輪模式的東西。渦輪模式就是我們盡可能多地使用GPU,使圖像產生非常快。這讓生成的速度提升了4到5倍。這個模式讓你好像在用64個或100個以上的GPU去生成圖像。能達到這個算力,你的計算機大概得值50萬美元。這聽起來多少有點瘋狂,而我們還在研發更瘋狂的技術。雖然它們大部分還在醞釀之中,但我們認為隨著時間的推移,Midjourney將發展為不僅能創造二維圖像,而且能創造三維圖像,動態圖像,你甚至可以與像素本身交互。在將來也許你能實時回流和重塑的你畫出來的東西。

人們只需要這樣一個龐大的AI處理器,然後它就可以夢想所有的不同世界,而且夢想可以與我們的思維互動。而我們從某種意義上是通過它(AI)在做夢,那將是真正酷的事。 Diffusion模型、Transformer模型、Clip模型的依次發現,實際上讓AI開始進入圖像空間。大約在2年前,任何圖像AI服務都還沒有出來時,我們所有的研究者在舊金山交流,我記得我當時說這些模型,特別是Diffusion模型的橫空出世肯定會帶來完全不同的東西。還有生成對抗網絡技術,這是大家在之前用來製作圖像生成的基本技術。

我只記得每個人都以一種不尋常的方式立刻點頭,說Diffusion模型真的不一樣。那一時間氣氛非常嚴肅,我有了一種必須參與其中,並給這個技術帶來更人性化的用戶界面的強烈感覺。

但是關於未來,我們很難確知技術會如何發展。有時我們會談論現在如何將語言模型轉向Diffusion模型,也即使用Diffusion模型來製作文本。或者說圖像模型會變得更像語言模型。這到底怎麼達成呢?這種方式的技術術語是自回歸Transformer,或者說AI會向著混合模型發展。但這真的很難說。我認為我們只是在這場變革的開端,但我百分之百確定還有很多進步要去取得。比現在十倍,一百倍的進步很可能是必然的。

這種進步不僅體現在性能上,而且體現在讓我們更好使用這些技術的用戶界面和產品上。無論是個體還是集體都可以製造出真正酷的東西,可以更好地解決問題。道格拉斯·恩格爾巴特是第一個創建文本編輯器的人。最初,人們是通過打孔卡或卡片上的打孔來編程計算機。但道格拉斯開始思考,如果我們用計算機編程計算機會怎樣,這在那時候聽起來很瘋狂。他的想法是,通過在計算機上編程計算機可以加速這個循環,使我們做的更好,使計算機更強大,放大一切。這種想法最終實現了。儘管我們有這些不同的文化,比如AI,人機界面,智能應用文化,我認為到目前為止技術上的大部分進步都來自於試圖讓人變得更好,試圖放大人的能力。

我們還沒有真正看到AI時代降臨,在那時我們會有獨立的AI去解決問題。但如果我們過多地考慮朝著那個方向發展,可能會錯失技術中現存的很多機會。我不僅思考AI能做什麼,而且思考如何在不同的事物之間創造流動性和糾纏。因為工具不應該感覺像一個人,它應該感覺像你自己,你的身體,你的思想的延伸。我在想如何構建這些技術,讓人和AI相互交織起來,感覺不像是你正在與藝術家合作,而更像是你在想像一些東西,然後它就出現在屏幕上。很多人在描述我的旅程時,都覺得那些目的地就像是他們思想的一部分。我認為這就是大部分AI應該成為的樣子,它應該是我們自身的延伸。

所以我想再次向陳先生和全體觀眾表示感謝。 WAIC非常酷,我希望我能在將來親自參加,成為這個活動的一部分。我很期待與中國有更多的合作,我記得我在那裡的所有美好的親身經歷,希望大家在那裡也能享受互動的樂趣。謝謝。

Total
0
Shares
Related Posts