微軟亞洲研究院最近推出了VASA-1,這是一種人工智慧模型,因其令人印象深刻的深度換臉功能而在科技界掀起波瀾。
使用單張照片和現有的配樂,該模型可以創建人們說話甚至唱歌的同步動畫影片。此類技術可以徹底改變虛擬空間,但它們也可能隱藏許多危險。
具有單一圖像和配樂的逼真深度偽造視頻
微軟推出了新的人工智慧驅動的VASA-1項目,該項目可以從單一影像即時創建超現實的深度偽造影片。該技術能夠操作虛擬化身,無需即時視訊串流。它還創造了改善虛擬體驗的機會,從虛擬助理和客戶服務頭像到虛擬教室和娛樂平台。
VASA(視覺情緒技能動畫師)使用機器學習來分析靜態影像和語音剪輯。然後,它可以生成逼真的視頻,其中包含與聲音同步的準確面部表情、頭部動作和嘴唇。它不像微軟的其他研究那樣克隆或模擬聲音,而是依賴現有的音訊輸入。
微軟研究院發布了一個用於產生虛擬角色逼真的說話面孔的框架。首屈一指的模型 VASA-1 可以產生與音訊完美同步的嘴唇運動,並捕捉大量臉部細微差別和自然頭部運動… pic.twitter.com/eLcnreLSCL
— 安東尼奧·維埃拉·桑托斯(@AkwyZ) 2024 年4 月18 日
微軟表示,該模型在真實性、表現力和效率方面顯著優於先前的語音動畫方法。所有這一切似乎確實比以前的單幀動畫模型有所改進。
為了展示該模型,微軟創建了一個VASA-1 研究頁面,我們也可以在其中看到該方法產生的幾個影片。例如,人們與預先錄製的配樂、動畫模型同步唱歌和說話。正如下面的影片所示,這些範例包含一些更具想像力的想法。我們可以看到《蒙娜麗莎》隨著安妮海瑟薇最初演唱的配樂說唱。
https://vasavatar.github.io/VASA-1/video/o1.mp4
資料來源:Microsoft.com
微軟研究人員使用三名牛津大學研究人員於2018 年創建的VoxCeleb2 數據來開發該程式。該資料集包含來自6,112 名名人的超過100 萬條陳述。據稱,VASA-1 能夠以每秒40 幀的速度創建512×512 像素分辨率的視頻,且延遲極低。
這可能非常危險
然而,除了潛在的好處之外,還存在著濫用和道德影響的擔憂。從單張照片和配樂創建逼真影片的能力引發了有關隱私、冒充和虛假資訊的問題。
研究人員解釋說,他們意識到了這些擔憂並反對任何有害的使用行為,因此他們沒有發布運行該程式的程式碼。他們也澄清說,他們專注於為互動角色創造視覺情感技能,而不是擬人化。
下一代Deepfake 的到來幾乎是不可避免的。人工智慧技術不斷進步,使教育、醫療等企業和產業受益。然而,這意味著識別假人和詐欺將變得越來越困難。儘管仍然可以仔細注意到差異,但網路犯罪分子利用深度偽造影片進行欺騙和獲利的情況很多。
資訊來源:由0x資訊編譯自BITCOINBAZIS。版權所有,未經許可,不得轉載
0X簡體中文版:VASA-1 能夠製作具有單一圖像和音軌的逼真深度偽造視頻