在本週二舉行的GoogleI/O大會上,Google推出了全新的人工智慧產品-Gemini Live。人們原本以為安卓系統的Gemini助手會帶來某些新東西,但這就是谷歌,一切都有可能。
值得一提的是,Gemini Live是在OpenAI首次消費者產品活動的第二天發布的,很難不讓人猜想該產品是否是為了對抗ChatGPT Voice而發布的。
而且兩者都採用了原生多模態人工智慧模型,並擁有出彩的語音和視訊功能。
目前,在全球人工智慧競賽中,領跑者無疑是OpenAI和谷歌,OpenAI似乎與蘋果和iPhone建立了緊密的聯繫,而谷歌則掌控著安卓系統。
而且,相對於Rabbit r1或Humane Pin這樣的人工智慧裝置而言,智慧型手機才是短期的贏家。 ChatGPT Voice和Gemini Live都整合到了現有的智慧型手機產品中,而且這兩款產品目前都還未上市。至於下一代助手是否能夠與之相比,這是後話了。
01.Gemini Live與GPT-4o誰更勝一籌?
下圖是Google發布Gemini Live時的發言:
“今年夏天,我們將擴展Gemini的多模態功能,包括使用語音進行深入的雙向對話。這種新體驗被稱為Live。”
在即時視訊分析和語音功能方面,谷歌是有所欠缺的。去年谷歌發布Gemini Ultra時,它發布了一段響應“實時視頻”的視頻,但生成的結果並不理想。
不過,這次谷歌把這項技術放在了I/O上試用,包括語音和視訊對話。
OpenAI和Google都為視訊及語音對話提供了一個介面,都可以透過手機相機進行即時的視訊分析。而語音和視訊的反應都很快,能夠進行真正自然的對話,甚至可以中途打斷人工智慧。
不過,兩者也有一些明顯的差異。 OpenAI的ChatGPT Voice聽起來更自然,可以偵測並回應情緒和聲調,甚至能根據你的要求即時調整說話方式。在Gemini Live上並沒有看到這種功能。
二者另一個最大的差異是多模態。 Gemini仍然依賴其他模型進行輸出,包括使用Imagen 3輸出影像和Veo輸出視訊。但GPT-4o是雙向的原生多模態,「o」代表了全方位,可以創造自己的影像和聲音。
02.AI的下一步發展:全方位語音助手
總的來看,目前人工智慧的發展趨勢似乎正在從文字輸入轉向語音輸入。
當人們看到OpenAI的公告時,可能就會意識到,這是人機介面的範式轉變,其意義不亞於滑鼠或觸控螢幕的推出。
谷歌也將繼續推出原生、自然的語音介面,Meta公司在其VR頭顯和Ray-Ban智慧眼鏡中配備了語音機器人MetaAI。
雖然智慧型手機可能是目前的贏家,但這些語音AI模型真正的適配設備顯然是智慧眼鏡。因為眼鏡上的攝影機與眼睛同高,眼鏡臂也可以將聲波送入使用者的耳朵,我們可以稱之為完美的人工智慧設備。
目前的問題在於,OpenAI是否會進軍硬體領域,推出自己的智慧眼鏡,或者這會成為新的Siri,並為未來的蘋果眼鏡產品提供動力。此外,谷歌是否真的有勇氣復活谷歌眼鏡,也是一個問題。
原文源自:
https://www.tomsguide.com/ai/google-gemini/google-gemini-live-vs-chatgpt-4o-voice-which-ai-assistant-could-win
中文內容由元宇宙之心(MetaverseHub)團隊編譯,如需轉載請聯絡我們。