根據IT 之家12 月4 日報道,Meta 日前推出了一款AI 聲音生成模型Audiobox,能夠同時接收語音及文字輸入,用戶可同時使用語音及文字描述,讓這款模型生成所需的音頻。據悉,這款模型基於Meta 今年6 月推出的Voicebox AI 模型,Audiobox 能產生各種環境音、自然對話語音,並整合了音訊產生和編輯能力,以便於用戶自由生成自己所需的音訊。 Meta 介紹稱,生成高品質音訊需要有大量音訊庫及深厚的領域知識,但大眾難以獲得這些資源,而該公司推出這個模型旨在降低聲音生成門檻,讓任何人都更容易製作視頻、遊戲等應用場景的音效。 Meta 測試生成帶有雷暴聲的下雨音頻,並輸入一系列提示句進行演示,例如“流水聲伴隨鳥鳴”、“以高音調快節奏說話的年輕女性”等;同時測試了同時輸入人聲及文字提示,以產生帶有情緒(「哀痛而緩慢」)並擁有背景音(身處教堂)的語音。