VASA-1 能夠製作具有單一圖像和音軌的逼真深度偽造視頻

微軟亞洲研究院最近推出了VASA-1，這是一種人工智慧模型，因其令人印象深刻的深度換臉功能而在科技界掀起波瀾。

使用單張照片和現有的配樂，該模型可以創建人們說話甚至唱歌的同步動畫影片。此類技術可以徹底改變虛擬空間，但它們也可能隱藏許多危險。

具有單一圖像和配樂的逼真深度偽造視頻

微軟推出了新的人工智慧驅動的VASA-1項目，該項目可以從單一影像即時創建超現實的深度偽造影片。該技術能夠操作虛擬化身，無需即時視訊串流。它還創造了改善虛擬體驗的機會，從虛擬助理和客戶服務頭像到虛擬教室和娛樂平台。

VASA（視覺情緒技能動畫師）使用機器學習來分析靜態影像和語音剪輯。然後，它可以生成逼真的視頻，其中包含與聲音同步的準確面部表情、頭部動作和嘴唇。它不像微軟的其他研究那樣克隆或模擬聲音，而是依賴現有的音訊輸入。

微軟研究院發布了一個用於產生虛擬角色逼真的說話面孔的框架。首屈一指的模型 VASA-1 可以產生與音訊完美同步的嘴唇運動，並捕捉大量臉部細微差別和自然頭部運動… pic.twitter.com/eLcnreLSCL

— 安東尼奧·維埃拉·桑托斯(@AkwyZ) 2024 年4 月18 日

微軟表示，該模型在真實性、表現力和效率方面顯著優於先前的語音動畫方法。所有這一切似乎確實比以前的單幀動畫模型有所改進。

為了展示該模型，微軟創建了一個VASA-1 研究頁面，我們也可以在其中看到該方法產生的幾個影片。例如，人們與預先錄製的配樂、動畫模型同步唱歌和說話。正如下面的影片所示，這些範例包含一些更具想像力的想法。我們可以看到《蒙娜麗莎》隨著安妮海瑟薇最初演唱的配樂說唱。

資料來源：Microsoft.com

微軟研究人員使用三名牛津大學研究人員於2018 年創建的VoxCeleb2 數據來開發該程式。該資料集包含來自6,112 名名人的超過100 萬條陳述。據稱，VASA-1 能夠以每秒40 幀的速度創建512×512 像素分辨率的視頻，且延遲極低。

然而，除了潛在的好處之外，還存在著濫用和道德影響的擔憂。從單張照片和配樂創建逼真影片的能力引發了有關隱私、冒充和虛假資訊的問題。

研究人員解釋說，他們意識到了這些擔憂並反對任何有害的使用行為，因此他們沒有發布運行該程式的程式碼。他們也澄清說，他們專注於為互動角色創造視覺情感技能，而不是擬人化。

下一代Deepfake 的到來幾乎是不可避免的。人工智慧技術不斷進步，使教育、醫療等企業和產業受益。然而，這意味著識別假人和詐欺將變得越來越困難。儘管仍然可以仔細注意到差異，但網路犯罪分子利用深度偽造影片進行欺騙和獲利的情況很多。