Meta AI 最近推出了一種“突破性”文本轉語音(TTS) 生成器,它聲稱生成結果的速度比性能相當的最先進人工智能模型快20 倍。
這個名為Voicebox 的新系統避開了傳統的TTS 架構,轉而採用更類似於OpenAI 的ChatGPT 或谷歌的Bard 的模型。
Voicebox 與類似的TTS 模型(例如ElevenLabs Prime Voice AI)之間的主要區別在於,Meta 的產品可以通過上下文學習進行推廣。
與ChatGPT 或其他轉換器模型非常相似,Voicebox 使用大規模訓練數據集。以前使用大量音頻數據的努力導致音頻輸出嚴重退化。出於這個原因,大多數TTS 系統都使用小型的、高度精選的、標記的數據集。
Meta 通過一種新穎的訓練方案克服了這一限制,該方案為能夠“填充”音頻信息的架構拋棄標籤和管理。
正如Meta AI 在6 月16 日的博客文章中所說,Voicebox 是“第一個可以泛化到語音生成任務的模型,它沒有經過專門訓練,無法以最先進的性能完成。”
這使得Voicebox 可以將文本翻譯成語音,通過合成替換語音來消除不需要的噪音,甚至可以將說話者的聲音應用於不同的語言輸出。
根據Meta 發表的隨附研究論文,其預訓練的Voicebox 系統可以僅使用所需的輸出文本和三秒鐘的音頻剪輯來完成所有這些工作。
強大的語音生成出現在一個特別敏感的時期,因為社交媒體公司繼續努力保持適度,而在美國,迫在眉睫的總統大選有可能再次考驗在線錯誤信息檢測的極限。
例如,美國前總統唐納德特朗普目前面臨指控,稱他在卸任後對政府機密材料處理不當。在針對他的案件中引用的據稱證據中包括錄音,據稱他在其中承認了潛在的不法行為。
雖然目前沒有跡象表明這位前總統打算否認音頻文件中描述的內容,但他的案例表明數據完整性是美國法律體系的核心,進而也是其民主的核心。
Voicebox 不是同類工具中的第一個,但它似乎是最強大的工具之一。因此,Meta’s 開發了一種工具來確定語音是否由它生成,該公司聲稱它可以“簡單地檢測”真假音頻之間的差異。根據博客文章:
“與其他強大的新人工智能創新一樣,我們認識到這項技術帶來了濫用和意外傷害的可能性。 在我們的論文中,我們詳細介紹了我們如何構建一個高效的分類器,該分類器可以區分Voicebox 生成的真實語音和音頻,以減輕這些未來可能存在的風險。”
在加密貨幣世界中,人工智能已經成為大多數企業日常運營不可或缺的一部分,就像互聯網或電力一樣。最大的交易所依靠人工智能聊天機器人進行客戶互動和情緒分析,交易機器人已經司空見慣。
Bybit 接入ChatGPT 用於人工智能交易工具
Voicebox 等強大的文本轉語音系統的出現與自動交易相結合,可能有助於彌合依賴TTS 系統的潛在加密貨幣交易者之間的差距,而TTS 系統目前可能難以應對加密貨幣術語或多語言支持。
資訊來源:由0x資訊編譯自COINTELEGRAPH。版權歸作者Tristan Greene所有,未經許可,不得轉載