谷歌反擊：Project Astra正面硬剛GPT-4o Veo對抗Sora

來源：機器之心

機器之心編輯部

通用的AI，能夠真正日常用的AI，不做成這樣現在都不好意思開發表會了。

5 月15 日凌晨，一年一度的「科技界春晚」Google I/O 開發者大會正式開幕。長達110 分鐘的主Keynote 提到了幾次人工智慧？谷歌自己統計了一下：

是的，每一分鐘都在講AI。

生成式AI 的競爭，最近又達到了新的高潮，本次I/O 大會的內容自然全面圍繞著人工智慧。

「一年前在這個舞台上，我們首次分享了原生多模態大模型Gemini 的計劃。它標誌著新一代的I/O，」谷歌首席執行官桑達爾·皮查伊（Sundar Pichai）說道。「今天，我們希望每個人都能從Gemini 的技術中受益。這些突破性的功能將進入搜尋、圖片、生產力工具、安卓系統等方方面面。」

24 小時以前，OpenAI 故意搶先發布GPT-4o，透過即時的語音、視訊和文字互動震撼了全世界。今天，Google展示的Project Astra 和Veo，直接對標了目前OpenAI 領先的GPT-4o 與Sora。

這是Project Astra 原型的即時拍攝：

我們正在見證最高端的商戰，以最樸實的方式進行著。

Gemini 家族大更新

Project Astra 上線

生態上Google有先天優勢，但大模型基礎很重要，Google為此整合了自身團隊和DeepMind 的力量。今天哈薩比斯也首次在I/O 大會上登台，親自介紹了神秘的新模型。

去年12 月，Google推出了首款原生多模態車型Gemini 1.0，共有三種尺寸：Ultra、Pro 和Nano。僅僅幾個月後，Google發布新版本1.5 Pro，其效能得到了增強，並且上下文視窗突破了100 萬token。

現在，Google宣佈在Gemini 系列模型中引入了一系列更新，包括新的Gemini 1.5 Flash（這是Google追求速度和效率的輕量級模型）以及Project Astra（這是Google對人工智慧助理未來的願景）。

目前，1.5 Pro 和1.5 Flash 都已提供公開預覽版，並在Google AI Studio 和Vertex AI 中提供100 萬token 上下文視窗。現在，1.5 Pro 也透過候補名單向使用API 的開發人員和Google Cloud 客戶提供了200 萬token 上下文視窗。

此外，Gemini Nano 也從純文字輸入擴展到可以圖片輸入。今年晚些時候，從Pixel 開始，Google將推出多模態Gemini Nano 。這意味著手機用戶不僅能夠處理文字輸入，還能夠理解更多上下文訊息，例如視覺、聲音和口語。

Gemini 家族迎接新成員：Gemini 1.5 Flash

新的1.5 Flash 針對速度和效率進行了最佳化。

1.5 Flash 是Gemini 模型系列的最新成員，也是API 中最快的Gemini 模型。它針對大規模、大批量、高頻任務進行了最佳化，服務更具成本效益，並具有突破性的長上下文視窗（100 萬token ）。

Gemini 1.5 Flash 具有強大的多模態推理能力，並具有突破性的長上下文視窗。

1.5 Flash 擅長摘要、聊天應用程式、圖像和視訊字幕、從長文件和表格中提取資料等。這是因為1.5 Pro 透過一個名為「蒸餾」的過程對其進行了訓練，將較大模型中最基本的知識和技能遷移到較小、更有效率的模型中。

Gemini 1.5 Flash 效能表現。來源https://deepmind.google/technologies/gemini/#introduction

改進的Gemini 1.5 Pro 上下文視窗擴展到200 萬token

谷歌提到，如今有超過150 萬的開發人員在使用Gemini 模型，超過20 億的產品用戶都用到了Gemini。

在過去的幾個月裡，Google除了將Gemini 1.5 Pro 上下文視窗擴展到200 萬token 之外，Google還透過數據和演算法的改進增強了其程式碼生成、邏輯推理和規劃、多輪對話以及音訊和圖像理解能力。

1.5 Pro 現在可以遵循日益複雜和細緻的指令，包括那些指定涉及角色，格式和風格的產品級行為的指令。此外，Google還讓使用者能夠透過設定係統指令來引導模型行為。

現在，Google在Gemini API 和Google AI Studio 中添加了音訊理解，因此1.5 Pro 現在可以對Google AI Studio 中上傳的視訊影像和音訊進行推理。此外，Google還將1.5 Pro 整合到Google 產品中，包括Gemini Advanced 和Workspace 應用程式。

Gemini 1.5 Pro 的定價為每100 萬token 3.5 美元。

其實，Gemini 最令人興奮的轉變之一就是Google 搜尋。

在過去的一年裡，作為搜尋生成體驗的一部分，Google 搜尋回答了數十億個查詢。現在，人們可以使用它以全新的方式進行搜索，提出新類型的問題、更長、更複雜的查詢，甚至使用照片進行搜索，並獲得網絡所提供的最佳信息。

Google即將推出Ask Photos 功能。以Google Photos 舉例，該功能大約在九年前推出。如今，用戶每天上傳的照片和影片數量超過60 億張。人們喜歡使用照片來搜尋他們的生活。 Gemini 讓這一切變得更加容易。

假設你正在停車場付款，但不記得自己的車牌號碼。之前，你可以在照片中搜尋關鍵字，然後滾動瀏覽多年的照片，尋找車牌。現在，你只需詢問照片即可。

又比如，你回憶女兒露西婭的早期生活。現在，你可以問照片：露西亞是什麼時候學會游泳的？你也可以跟進一些更複雜的事情：告訴我露西亞的游泳進度如何。

在這裡，Gemini 超越了簡單的搜索，識別了不同的背景—— 包括游泳池、大海等不同場景，照片將所有內容匯總在一起，以便用戶查看。谷歌將於今年夏天推出Ask Photos 功能，也將推出更多功能。

新一代開源大模型Gemma 2

今天，Google也發布了開源大模型Gemma 的一系列更新——Gemma 2 來了。

根據介紹，Gemma 2 採用全新架構，旨在實現突破性的效能和效率，新開源的模型參數為27B。

此外，Gemma 家族也在隨著PaliGemma 的擴展而擴展，PaliGemma 是Google受PaLI-3 啟發的第一個視覺語言模型。

通用AI 智能體Project Astra

一直以來，智能體都是Google DeepMind 的重點研究方向。

昨天，我們圍觀了OpenAI 的GPT-4o，為其強大的即時語音、視訊互動能力所震撼。

今天，DeepMind 的視覺與語音互動通用AI 智能體專案Project Astra 亮相，這是Google DeepMind 對未來AI 助理的一個展望。

谷歌表示，為了真正發揮作用，智能體需要像人類一樣理解和回應複雜、動態的真實世界，也需要吸收並記住所看到和聽到的內容，以了解上下文並採取行動。此外，智能體還需要具有主動性、可教育和個人化，以便使用者可以自然地與它交談，沒有延遲或延遲。

在過去的幾年裡，Google一直致力於改進模型的感知、推理和對話方式，以使互動的速度和品質更加自然。

在今天的Keynote 中， Google DeepMind 展示了Project Astra 的互動能力：

據介紹，Google是在Gemini 的基礎上開發了智能體原型，它可以通過連續編碼視頻幀、將視頻和語音輸入組合到事件時間線中並緩存此信息以進行有效調用，從而更快地處理信息。

透過語音模型，Google也強化了智能體的發音，為智能體提供了更廣泛的語調。這些智能體可以更好地理解他們所使用的上下文，並在對話中快速回應。

這裡簡單評論一下。機器之心感覺Project Astra 專案發布的Demo，在互動體驗上要比GPT-4o 即時演示的能力要差許多。無論是回應的長度、語音的情緒豐富度、可打斷等方面，GPT-4o 的互動體驗似乎更自然。不知道讀者們感覺如何？

反擊Sora：發布影片生成模型Veo

在AI 生成影片方面，Google宣布推出影片生成模型Veo。 Veo 能夠生成各種風格的高品質1080p 解析度視頻，長度可以超過一分鐘。

憑藉對自然語言和視覺語義的深入理解，Veo 模型在理解影片內容、渲染高清影像、模擬物理原理等方面都有所突破。 Veo 產生的影片能夠準確、細緻地表達用戶的創作意圖。

例如，輸入文字prompt：

Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean.

（許多斑點水母在水下搏動。它們的身體透明，在深海中閃閃發光。）

再例如生成人物視頻，輸入prompt：

A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors.

（在美麗的日落、柔和的光線、溫暖的色彩下，一個孤獨的牛仔騎著馬穿過開闊的平原。）

近景人物視頻，輸入prompt：

A woman sitting alone in a dimly lit cafe, a half-finished novel open in front of her. Film noir aesthetic, mysterious atmosphere. Black and white.

（一個女人獨自坐在燈光昏暗的咖啡館裡，一本未完成的小說攤在她面前。黑色電影唯美，神秘氣氛。黑白。）

值得注意的是，Veo 模型提供了前所未有的創意控制水平，並理解「延時拍攝」、「空拍」等電影術語，使影片連貫、逼真。

例如電影級海岸線空拍鏡頭，輸入prompt：

Drone shot along the Hawaii jungle coastline, sunny day

（無人機沿著夏威夷叢林海岸線拍攝，陽光明媚的日子）

Veo 也支援以圖像和文字一起作為prompt，來產生影片。透過提供參考圖像與文字提示，Veo 產生的影片會遵循圖像風格和使用者文字說明。

有趣的是，Google發布的demo 是Veo 生成的“羊駝”視頻，很容易讓人聯想到Meta 的開源系列模型Llama。

在長影片方面，Veo 能夠製作60 秒甚至更長的影片。它可以透過單一prompt 來完成此操作，也可以透過提供一系列prompt 來完成此操作，這些prompt 一起講述一個故事。這點對影片生成模型應用於影視製作非常關鍵。

Veo 以Google的視覺內容生成工作為基礎，包括生成式查詢網路(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere 等。

從今天開始，Google會為一些創作者在VideoFX 中提供預覽版Veo，創作者可以加入Google的waitlist。谷歌也將把Veo 的一些功能引入YouTube Shorts 等產品。

文生圖新模型Imagen 3

在文字到圖像生成方面，Google再次升級了系列模型— 發布 Imagen 3。

Imagen 3 在生成細節、光照、幹擾等方面進行了最佳化升級，並且理解prompt 的能力顯著增強。

為了幫助Imagen 3 從較長的prompt 中捕捉細節，例如特定的攝影機角度或構圖，Google在訓練資料中每個影像的標題中添加了更豐富的細節。

例如，在輸入prompt 中加入「在前景中略微虛焦」、「溫暖光線」等，Imagen 3 就可以依照要求產生影像：

此外，Google特別針對圖像生成中「文字模糊」的問題進行了改進，即優化了圖像渲染，使生成圖像中文字清晰並風格化。

為了提高可用性，Imagen 3 將提供多個版本，每個版本都針對不同類型的任務進行了最佳化。

從今天開始，Google為一些創作者在ImageFX 中提供Imagen 3 預覽版，用戶可以註冊加入waitlist。

第六代TPU 晶片Trillium

生成式AI 正在改變人類與科技互動的方式，同時為企業帶來巨大的增效機會。但這些進步需要更多的運算、記憶體和通訊能力，以訓練和微調功能最強大的模型。

為此，Google推出第六代TPU Trillium，這是迄今為止性能最強大、能源效率最高的TPU，將於2024 年底正式上市。

TPU Trillium 是一種高度客製化的AI 專用硬件，此次Google I/O 大會上宣布的多項創新，包括Gemini 1.5 Flash、Imagen 3 和Gemma 2 等新模型，均在TPU 上進行訓練並使用TPU提供服務。

據介紹，與TPU v5e 相比，Trillium TPU 的每晶片峰值計算性能提高了4.7 倍，同時它還把高頻寬記憶體（HBM）以及晶片間互連（ICI）頻寬加倍。此外，Trillium 配備了第三代SparseCore，專門用於處理高級排名和建議工作負載中常見的超大型嵌入。

Google表示，Trillium 能夠以更快的速度訓練新一代AI 模型，同時減少延遲和降低成本。此外，Trillium 也被稱為迄今為止Google最具永續性的TPU，與其前代產品相比，能源效率提高了超過67%。

Trillium 可在單一高頻寬、低延遲的運算叢集（pod）中擴展到多達256 個TPU（張量處理單元）。除了這種叢集層級的擴展能力之外，透過多片技術（multislice technology）和智慧處理單元（Titanium Intelligence Processing Units，IPUs），Trillium TPU 可以擴展到數百個集群，連接成千上萬的晶片，形成一個由每秒數PB（multi-petabit-per-second）資料中心網路互聯的超級電腦。

谷歌早在2013 年就推出了首款TPU v1，隨後在2017 年推出了雲端TPU，這些TPU 一直在為即時語音搜尋、照片物件辨識、語言翻譯等各種服務提供支持，甚至為自動駕駛汽車公司Nuro 等產品提供技術動力。

Trillium 也是GoogleAI Hypercomputer 的一部分，這是一種開創性的超級運算架構，專為處理尖端的AI 工作負載而設計。谷歌正在與Hugging Face 合作，優化開源模型訓練和服務的硬體。

以上，就是今天谷歌I/O 大會的所有重點內容了。可以看出，Google在大模型技術與產品方面與OpenAI 展開了全面競爭的態勢。而透過這兩天OpenAI 與Google的發布，我們也能發現大模型競爭進入了到了一個新的階段：多模態、更自然地互動體驗成為了大模型技術產品化並為更多人所接受的關鍵。

期待2024 年，大模型技術與產品創新，能為我們帶來更多的驚喜。

谷歌反擊：Project Astra正面硬剛GPT-4o Veo對抗Sora

最新版Gemini 革新谷歌生態