麗貝卡·莫恩於2025年7月4日報導,targin.ai推出了突破性技術TalkingMachines,利用高級擴散模型實現實時AI視頻生成。此技術支持交互式、音頻驅動的角色動畫,允許角色實時溝通並涵蓋多種風格。基於Avatarfx,TalkingMachines能通過圖像和聲音生成生動視頻,為娛樂和互動媒體帶來新可能。其核心技術包括流匹配擴散、音頻驅動交叉注意和不對稱蒸餾,旨在提升AI角色的交互性和可擴展性。儘管尚未推出,未來計劃將其納入平台,民主化沉浸式互動。
麗貝卡·莫恩(Rebeca Moen)7月4日,2025年04:27
targin.ai介紹了TalkingMachines,這是實時AI視頻生成中的突破,利用高級擴散模型用於交互式,音頻驅動的角色動畫。
角色ai宣布了實時視頻生成的重大進步,這是一種創新的自回歸擴散模型TalkingMachines的揭幕。這項新技術可以創建交互式,音頻驅動的面部式視頻,允許角色在各種樣式和流派中實時交易所,如pronem.ai博客所報導。
革命性的視頻生成
TalkingMachines建立在角色的先前作品Avatarfx上,該作品在其平台上為視頻發電提供動力。這個新模型為身臨其實的實時AI驅動的視覺交互和動畫字符設定了舞台。通過僅利用圖像和語音信號,該模型可以生成動態視頻內容,為娛樂和交互式媒體打開新的可能性。
說話機器背後的技術
該模型利用一種稱為不對稱知識蒸餾的方法利用擴散變壓器(DIT)結構。這種方法將高質量的雙向視頻模型轉換為快速的實時生成器。關鍵功能包括:
流匹配的擴散:從微妙的表達到動態手勢的估計來管理複雜的運動模式。音頻驅動的交叉注意:一個1.2B參數音頻模塊,使聲音和運動複雜地對齊。稀疏因果關注:通過關注相關的過去框架來減少記憶和延遲。不對稱蒸餾:採用無限長度生成的快速,兩步擴散模型而不會造成質量損失。對未來的影響
這一突破超出了面部動畫的範圍,為交互式視聽AI字符鋪平了道路。它支持各種風格,從影片化到動漫和3D化身,並有望通過自然的口語和聽力階段來增強流式傳輸。這項技術為角色扮演,講故事和互動世界建設奠定了基礎。
提高AI功能
角色。 EA的研究標誌著幾項進步,包括實時生成,有效的蒸餾和高可擴展性,並且操作只能在兩個GPU上運行。該系統還支持多鐘相互作用,從而實現了無縫的角色對話。
前景
雖然尚未推出產品,但這種開發是角色的路線圖中的關鍵里程碑。該公司正在努力將這項技術集成到他們的平台中,旨在實現類似FaceTime的體驗,角色流和視覺世界構建。最終目標是使與沈浸式視聽角色的創造和互動民主化。
Partin.ai在培訓基礎設施和系統設計方面進行了大量投資,利用了超過150萬個策劃的視頻剪輯和三階段的培訓管道。這種方法體現了AI技術領域研究的精確性和目的。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載