除了深度換臉、模擬配音,還能口型搭配的AI軟體出現了


原文來源:GenAI新世界

圖片來源:由無界AI生成

根據海外媒體報道,上週一款名為LipDub 的翻譯軟體正式發布,這款AI程式可讓影片創作者在幾分鐘內使用不同語言進行交易所。

LipDub由新創公司Captions開發,這家公司成立於2021年,由Gaurav Misra和 Dwight Churchill共同成立。 Captions目前已經獲得了紅杉資本、安德森-霍洛維茨、Instagram聯合創始人Kevin Systrom和Mike Krieger以及Facebook前產品設計副總裁Julie Zhuo的投資支援。

創辦人Gaurav Misra來自印度新德里,曾是Snap的設計工程主管。 Misra表示,他的成長環境充滿了印地語、英語、旁遮普語和烏爾都語等各種不同的語言。而Gaurav Misra也花了數年時間學習法語,這幫助他在歐洲、非洲和中東建立了專業的關係網。

Misra相信,AI驅動的翻譯和口型匹配技術可以幫助人們更輕鬆地聯繫和理解他人。

Captions:利用AI 輕鬆實現視訊翻譯本地化

Captions以製作AI生成的字幕、語音糾正以及在後期製作中糾正視頻創作者眼球位置的技術而聞名。 Misra 和Churchill 曾在高盛集團擔任產品開發人員,他們早就想在配音翻譯中加入口型匹配功能,但沒想到會這麼快實現。 Misra說:“我們最初認為這項技術需要10年時間才能夠實現,但現在的技術發展實在太快了,幾乎每月甚至每週都有新東西出現。”

LipDub正在進入一個很有前景的AI翻譯市場。它的競爭對手包括語音克隆翻譯應用HeyGen 和Verbalate,以及Spotify和視覺特效工作室Monsters Aliens Robots Zombies等公司推出的新工具。

過去,許多企業需要聘請多個影片主持人用不同的語言表達同一個故事,而現在,他們可以透過生成式AI來實現相同的功能。這些應用程式允許用戶上傳視頻,然後在幾分鐘內將其轉換成流利的土耳其語、法語、阿拉伯語或義大利語。

DeepMedia公司的創辦人Rijul Gupta表示:「我們基本上已經完美地實現了這項新技術,任何人都可以克隆任何人的聲音,並透過5秒鐘的音訊參考,讓它用不同的語言說話。 」

在X 和Reddit等網站上,一些知名人士的配音影片已經出現了數千次。 Spotify 上個月也加入了這一行列,他們宣布將提供人工智慧翻譯的播客,讓這些播客保持原本音色和語調的同時轉換為不同的語言。

目前,演員Dax Shepard和Kristen Bell、麻省理工學院研究員Lex Fridman和Steven Bartlett等人都有了西班牙語播客,法語和德語翻譯也將很快推出。新的Spotify 工具利用了OpenAI最新發布的語音生成技術,提供更真實的聽覺體驗。

去年年初,Misra和Captions 的團隊開始嘗試口型配對技術,並與合作夥伴測試該技術在Captions應用程式中的效果。

Misra坦言,口型配對技術發展速度比他預期的還要快。 「這看起來就像是自然地進入下一階段,創造出一種不像是配音或人工調整的影片。新的技術讓影片看起來非常自然且易於理解。」從測試開始,一種新的可能性便已展示在他們面前。 Misra表示:“就像我們以前在《星際爭霸戰》中看到的那些科技一樣,這簡直就是科幻”

Captions今年6月獲得了來自Kleiner Perkins 領投的 2500 萬美元的B輪融資。目前Captions 的每日活躍用戶已達10萬,Misra認為LipDub推出後該公司將會有更多活躍的用戶。

目前LipDub 支援28種語言,包括韓語、西班牙語、捷克語、泰米爾語和烏克蘭語,它採用零鏡頭模式,可以在Captions的影片產生模型在沒見過主題的情況下推出流暢的影片。

LipDubs的內部機器學習演算法經過訓練,可以辨識講話人的唇部動作,公司也使用OpenAI 的GPT-4模型,在應用中將影片翻譯成不同的語言和方言。這種AI 配音技術已在Captions應用程式中使用,並於今年3月發布,吸引了來自世界各地的用戶。

Misra說:“原本無法接觸到特定受眾的人現在可以做到了。這項技術是烏托邦式未來的完美範例,所以我對此感到非常興奮。”

Misra認為,新科技的可能性是無窮無盡的。 “我認為直播是一個非常可靠的案例。”Misra表示:“無論是Twitch 上的遊戲直播,還是不知名的演講,這些類型的內容都可以通過AI 輕易地本地化。”

HeyGen:想讓不同語言的影片傳播像打字一樣簡單

除了Captions,還有很多同類型AI翻譯的公司,例如HeyGen。 HeyGen 是一家擁有數百萬用戶的AI公司,是短影片內容AI口型配對和翻譯領域最大的參與者之一。該公司在9 月7日上線視訊翻譯功能後,在X上迅速走紅。自此以後,數十個逼真的影片在網路上瘋傳,用戶分享了伊隆馬斯克、梅西和馬克祖克柏用多種外語講話的片段。

Mark Burginger是玩具公司Qubits的負責人,他曾在一個名為 “鯊魚坦克”節目中推銷他以STEM為中心的公司。出於好奇,他於9 月13日試用了HeyGen的人工智慧翻譯功能。他在X上發布了一段自己用西班牙語說話的視頻,儘管他並不懂西班牙語。

「你能想像一家一年收入不到一百萬美元的小型玩具公司能夠使用這些價格相當低廉的工具嗎?」Burginger說,他是一名藝術家和發明家,工作地點在北卡羅來納州亨德森維爾,Burginger表示,“這有助於與大公司公平競爭。”

HeyGen 的目標是”消除語言障礙”,公司聯合創始人兼首席執行官Joshua Xu說:“我們設想在未來,用不同語言製作視頻內容和傳播信息,就像打字一樣簡單”。

在X 上發布的一段人工智慧生成的影片中,Xu補充說,Coursera、Khan Academy、和MasterClass等教育平台可以透過」多語言化」來擴大影響力。 HeyGen 目前支援10種輸入語言和8種輸出語言,包括英語、西班牙語、中文、義大利語、印地語和日語等。

HeyGen執行長Joshua Xu

在創辦原名為Movio的HeyGen之前,來自Snap 的XU 和前位元組跳動工程師Wayne Liang於2020年創辦了Surreal。

當時,Surreal提供逼真的「深度偽造」產品,「深度偽造」是一種視訊合成技術,可以創作出以假亂真的合成影片。這種技術吸引了希望以更有效方式宣傳產品的電子商務公司。 Surreal在中國深圳啟動營運四個月後,在一輪天使投資中獲得了100萬美元的投資。時至今日,Surreal仍活躍在中國,在中國的就業和大學網站上發布招聘和實習訊息,但Surreal的HeyGen平台主要在洛杉磯運營,XU和Liang在洛杉磯工作。

Movio 是一個基於Surreal引擎的AI視訊平台,於2022年7月推出。據該公司稱,其產品僅在7個月內就獲得了100萬美元的收入,之後XU 和Liang 將Movio 更名為HeyGen,自2020年以來,HeyGen和Surreal已從紅杉資本、IDG資本、真格基金和百度的創投部門百度創投(Baidu Ventures)獲得了至少900萬美元的融資。

被播客啟發誕生的Verbalate

除了LipDub和HeyGen之外,還有一個平台也在涉足該領域,Verbalate也能將使用者的視訊同步配音成目標語言。不同的是,Verbalate可以為長達30分鐘的影片配音。

根據該平台創始人Grant Davies表示,Verbalate純粹是因為疫情流行期間的無聊而誕生的。在2022年的某一天,Davies在騎車時聽到Joe Rogan和MrBeast的播客訪談。當時這位YouTuber提到,他的頻道正在使用配音員將影片配音成西班牙語、俄語、印地語、葡萄牙語等語言,因為全世界只有不到10%的人說英語。 Davies當時正在研究AI技術,他們沒撒航就覺得他們的團隊肯定能夠實現這個功能。

Davies利用自己的行銷網絡向希望與海外員工溝通的企業客戶介紹並銷售Verbalate的服務。根據雪梨一家外包公司OutSourced Staff的創始人Dom Procter表示:“對我這個銷售和行銷人員來說,它讓我的生活變得更輕鬆。”

他曾使用Verbalate影片向亞洲或東歐的遠端員工發送訊息,Dom Procter指出:「用他們的母語製作內容,這改變了遊戲規則。」Verbalate最基本的訂閱計畫每月9美元,允許用戶創建一個10分鐘長的視頻,每分鐘的額外費用為1美元。而HeyGen的創作者包月套餐每月29美元,可以製作多個視頻,每個視頻5分鐘。

其他平台則著眼於更大的市場和更長的視訊播放時間。總部位於多倫多的MARZ 公司主要透過其LipDub AI平台(並非Captions 的LipDub)吸引對逼真配音感興趣的電影和電視製作公司。

LipDub AI 目前處理一分鐘包含多個鏡頭的影片片段的運行時間不到20分鐘。雖然該公司目前使用訓練片段來製作這些配音,但它希望在年內透過放棄訓練片段而只依靠音訊和原始片段來加快處理速度。與其他配音平台不同,LipDub AI不使用大型語言模型,而是使用自己的生成模型,該模型在錄音基礎上進行訓練。

MARZ 市場總監Tim Reyes認為,口型合成技術將幫助製片人擴大電影或電視節目的影響力,同時又不會危及演員的工作保障。 Reyes認為:「LipDub AI 實際上為新市場開闢了一大堆機會,這不像其他一些人工智慧技術,他們破壞了電影業目前的工作流程。”

除了開拓新市場,這些應用程式的創造者們還有更崇高的理想。 Davies希望,像Verbalate 這樣的翻譯程式能夠打破人們對自己語言的隱性偏見,甚至培養一種更全球化的思維方式。 Davies說,在他的團隊在X 上分享的一個影片中,可以看到來自不同地區的人們用不同語言發表自己的觀點,這幫助他思考人們如何能夠跨越國界進行溝通。 Davies認為這有可能讓人們變得更人性化一些,因為不同文化背景的人們可以更好地理解彼此」。

Davies表示,即使是政治訊息,用自己的語言也會產生不同的效果,如果我們能夠互相傾聽,就有可能幫助人類。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts