Midjourney CEO 最新演講：AI是我們自身的延伸

MJ，中國產？

7月7日，MidjourneyCEO大衛·霍爾茲在2023世界人工智能大會上發言，認為AI將成為創造和想像力的新的載體和引擎。通過AI，我們有可能放大整個人類種族的原始想像力。針對公司的名字Midjouney，霍爾茲表明它來自於道教著作《莊周》中的中道概念，他認為中國古典文學帶來了很多最美麗的，最深沉的思想。

目前Midjouney正在進行5.3版本的開發，並會在版本6中提供一系列對生成圖像進行縮放，平移來自動生成新的不同角度相關圖像的能力，並且可以控制生成圖像的隨機性，讓作者在詭異的美和令人迷惑的畫面間找到平衡。在未來，Midjourney的目標是發展出三維，實時，動態可調的生成圖像。

關於技術的未來，他並不確定可能的走向。但融合模型（圖像/文字用的模型進行融合）可能是比較可能的發展方向。他認為AI的這次技術進步的潛力還沒有完全發揮出來，比現在強上十倍，百倍的進步是必然的。

他認為到目前為止技術上的大部分進步都來自於試圖讓人變得更好，試圖放大人的能力。因此AGI也許並非是必要的，AI作為我們人的延伸，賦能人類才是更好的選擇。

以下為演講實錄：

大家好，我是大衛·霍爾茲，Midjourney的CEO和創始人. 我很榮幸受上海市政府邀請我參加這次人工智能世界大會，並很期待加入今天的活動。

世界上最重要的技術之一就是引擎。引擎是一種用於產生、轉移或放大的機器。我們使用引擎在各種工廠建造各種各樣的交通工具，如汽車、飛機和船隻。而現在，是時侯把人工智能看作一種新型引擎了。

在MidJourney，我們正試圖用這種引擎來打造一種新型的載體，這載體不是交通工具，而是承載我們的思維和想像力的載體。

就像你可以用足球轉動世界，但仍需要腿去踢球一樣。我們希望能創造一種新型的載體，你可以用它來進行想像，而不僅是產生運動。在我們創造之前，我們必須首先去想像，想像我們能成為什麼，我們可以去哪裡，什麼是可能的。我認為我們製造的工具，比任何東西都更專注於放大想像力的原初力量。我們有機會放大的不僅僅是任何個體，而是整個人類種族的想像力。我曾多次隨Leap Motion（手勢識別設備）訪問過中國，Leap Motion的第一個辦公室就在上海。上海有一種特殊的感覺，我非常喜歡，它似乎是舊金山、洛杉磯、紐約以及一些歐洲老城市的組合體。它擁有一種古老歷史和文化的力量，同時也有一種未經雕琢的未來感。這真的很酷，這是我最喜歡的兩件事。

事實上，我基本上是個科幻小說的狂熱讀者，而我看到的最瘋狂的設定來自於中國古典文學。我認為古代中國文學擁有人類歷史上最美麗、最深沉的思想。 MidJourney（中道）這個名字實際上源於我最喜歡的一個古老道家文本的翻譯，它出自《莊周》。比如《莊周夢蝶》、《子非魚》、《庖丁解牛》、《不材之木》、《空舟》，我喜歡這些。我喜歡MidJourney這個名字的原因是，我覺得人們有時容易忘記過去，可能會感到迷茫，對未來感到不確定。但我更多的是覺得我們其實是在中途旅程，我們來自豐饒美麗的過去，前方是荒野而不可思議的未來。

我們最近發布了Mid Journey 5.2版本，現在正進行著5.3版本的開發。之後我希望能發布一個重大更新版本，我希望稱之為版本6。我們引入的最新特性是關於圖像的縮放，並在你縮小的同時，可以創造不同的故事和環境，圍繞中心主題進行變化。這週我們將發布一個類似的功能，它允許你移動相機，然後當你橫向移動相機時，可以不斷改變提示，然後講述故事，我們還發布了這個奇特的控制系統，可以結合這些新功能來更好地控製圖像生成。

你也可以將其與風格控制相結合。 “風格控制”略有點混淆，但是這個想法是，你想要告訴AI想生成多美的產物，你要承擔多大的風險來製造這種美。哪怕它是非常規的，混亂的，奇特的，但有時結果真的非常出色。

有時你需要勇於冒險，這讓人們可以控制風險性和美的隨機性之間的平衡，或者是平衡對圖像的常規普遍美予以多少關注。我們還引入了一種我們稱之為渦輪模式的東西。渦輪模式就是我們盡可能多地使用GPU，使圖像產生非常快。這讓生成的速度提升了4到5倍。這個模式讓你好像在用64個或100個以上的GPU去生成圖像。能達到這個算力，你的計算機大概得值50萬美元。這聽起來多少有點瘋狂，而我們還在研發更瘋狂的技術。雖然它們大部分還在醞釀之中，但我們認為隨著時間的推移，Midjourney將發展為不僅能創造二維圖像，而且能創造三維圖像，動態圖像，你甚至可以與像素本身交互。在將來也許你能實時回流和重塑的你畫出來的東西。

人們只需要這樣一個龐大的AI處理器，然後它就可以夢想所有的不同世界，而且夢想可以與我們的思維互動。而我們從某種意義上是通過它（AI）在做夢，那將是真正酷的事。 Diffusion模型、Transformer模型、Clip模型的依次發現，實際上讓AI開始進入圖像空間。大約在2年前，任何圖像AI服務都還沒有出來時，我們所有的研究者在舊金山交流，我記得我當時說這些模型，特別是Diffusion模型的橫空出世肯定會帶來完全不同的東西。還有生成對抗網絡技術，這是大家在之前用來製作圖像生成的基本技術。

我只記得每個人都以一種不尋常的方式立刻點頭，說Diffusion模型真的不一樣。那一時間氣氛非常嚴肅，我有了一種必須參與其中，並給這個技術帶來更人性化的用戶界面的強烈感覺。

但是關於未來，我們很難確知技術會如何發展。有時我們會談論現在如何將語言模型轉向Diffusion模型，也即使用Diffusion模型來製作文本。或者說圖像模型會變得更像語言模型。這到底怎麼達成呢？這種方式的技術術語是自回歸Transformer，或者說AI會向著混合模型發展。但這真的很難說。我認為我們只是在這場變革的開端，但我百分之百確定還有很多進步要去取得。比現在十倍，一百倍的進步很可能是必然的。

這種進步不僅體現在性能上，而且體現在讓我們更好使用這些技術的用戶界面和產品上。無論是個體還是集體都可以製造出真正酷的東西，可以更好地解決問題。道格拉斯·恩格爾巴特是第一個創建文本編輯器的人。最初，人們是通過打孔卡或卡片上的打孔來編程計算機。但道格拉斯開始思考，如果我們用計算機編程計算機會怎樣，這在那時候聽起來很瘋狂。他的想法是，通過在計算機上編程計算機可以加速這個循環，使我們做的更好，使計算機更強大，放大一切。這種想法最終實現了。儘管我們有這些不同的文化，比如AI，人機界面，智能應用文化，我認為到目前為止技術上的大部分進步都來自於試圖讓人變得更好，試圖放大人的能力。

我們還沒有真正看到AI時代降臨，在那時我們會有獨立的AI去解決問題。但如果我們過多地考慮朝著那個方向發展，可能會錯失技術中現存的很多機會。我不僅思考AI能做什麼，而且思考如何在不同的事物之間創造流動性和糾纏。因為工具不應該感覺像一個人，它應該感覺像你自己，你的身體，你的思想的延伸。我在想如何構建這些技術，讓人和AI相互交織起來，感覺不像是你正在與藝術家合作，而更像是你在想像一些東西，然後它就出現在屏幕上。很多人在描述我的旅程時，都覺得那些目的地就像是他們思想的一部分。我認為這就是大部分AI應該成為的樣子，它應該是我們自身的延伸。

所以我想再次向陳先生和全體觀眾表示感謝。 WAIC非常酷，我希望我能在將來親自參加，成為這個活動的一部分。我很期待與中國有更多的合作，我記得我在那裡的所有美好的親身經歷，希望大家在那裡也能享受互動的樂趣。

展開全文打開碳鏈價值APP 查看更多精彩資訊

Midjourney CEO 最新演講：AI是我們自身的延伸

分析：比特幣30天期權Delta傾斜度飆升，表明市場處於極度恐慌中

比特幣價格接近130,000美元，分析師認為RTX、HBAR和XLM在BTC翻倍前可提供50倍收益

以太坊Microstrategy的結構性風險分析：基於最優淨資產價值

預計2050年XRP價格，XRPL每年銷毀98.5萬XRP

知名資管公司Point72與ExodusPoint披露持有Alt5 Sigma股份

當ETH找到新的支持級別時值得購買的山寨幣冷軟件和Shiba INU成為安全避風港

比特幣預測：哈佛經濟學家羅戈夫對驚人現象的深思

比特幣有兩名礦工攻擊51％攻擊的風險

Midjourney CEO 最新演講：AI是我們自身的延伸

Related Posts