來源:AIGC開放社區
9月14日,著名開源平台Stability AI在官網發布了,音頻生成式AI產品Stable Audio。 (免費使用地址:https://www.stableaudio.com/generate)
用戶通過文本提示就能直接生成搖滾、爵士、電子、嘻哈、重金屬、民謠、流行、朋克、鄉村等20多種類型背景音樂。
例如,輸入迪斯科、鼓機、合成器、貝司、鋼琴、吉他、歡快、115 BPM等關鍵詞,就能生成背景音樂。
目前,Stable Audio有免費和付費兩個版本:免費版,每月可生成20個音樂,最大時長45秒,不能用於商業;付費版,每月11.99美元(約87元),可生成500個音樂,最大時長90秒,可用於商業。
如果你不想付費可以多註冊幾個賬號,可以通過AU(一種音頻編輯器)或PR將生成的音樂拼接起來可達到同樣效果。
Stable Audio簡單介紹
在過去幾年,擴散模型在圖像、視頻、音頻等領域獲得了飛速發展,可顯著提升訓練和推理效率。但音頻領域的擴散模型存在一個問題,通常會生成固定大小的內容。
例如,音頻擴散模型可能在30秒的音頻片段上進行訓練,並且只能生成30秒的音頻片段。為了打破這個技術瓶頸Stable Audio使用了一種更先進的模型。
這是一種基於文本元數據以及音頻文件持續時間,和開始時間調整的音頻潛在擴散模型,允許對生成音頻的內容和長度進行控制。這種額外的時間條件使用戶能夠生成指定長度的音頻。
與原始音頻相比,使用大幅度下採樣的音頻潛在表示可以實現更快的推理效率。通過最新穩定音頻模型,Stable Audio能在不到一秒的時間內,使用NVIDIA A100 GPU渲染出95秒的立體聲音頻,採樣率為44.1 kHz。
訓練數據方面,Stable Audio使用了一個超過80萬個音頻文件組成的數據集,包含音樂、音效以及各種樂器。
該數據集總計超過1.95萬小時的音頻,同時與音樂服務商AudioSparx進行合作,所以,生成的音樂可以用於商業化。
潛在擴散模型
Stable Audio所使用的潛在擴散模型(Latent Diffusion Models)是一種基於擴散的生成模型,主要在預訓練的自動編碼器的潛在編碼空間中使用。這是一種結合了自動編碼器和擴散模型的方法。
自動編碼器首先被用來學習輸入數據(例如圖像或音頻)的低維潛在表示。這個潛在表示捕捉了輸入數據的重要特徵,並且可以被用來重構原始數據。
然後,擴散模型在這個潛在空間中進行訓練,逐步改變潛在變量,從而生成新的數據。
這種方法的主要優點是可以顯著提高擴散模型的訓練和推理速度。因為擴散過程在一個相對較小的潛在空間中進行,而不是在原始數據空間中進行,因此可以更高效地生成新的數據。
此外,通過在潛在空間中進行操作,這種模型還可以提供對生成數據的更好控制。例如,可以通過操縱潛在變量來改變生成數據的某些特性,或者通過對潛在變量施加約束來引導數據生成過程。
Stable Audio使用和案例展示
「AIGC開放社區」體驗了一下免費版Stable Audio,使用方法與ChatGPT差不多直接輸入文本提示即可。提示內容包括細節、心態、樂器和節拍四大類。
需要注意的是,如果想生成的音樂更細膩、有律動性和節奏,輸入的文本也需要更細化。也就是說,你輸入的文本提示越多,那么生成的效果就約好。
Stable Audio使用界面
以下是生成音頻案例展示。
恍惚、島嶼、海灘、太陽、凌晨4點、漸進、合成器、909、戲劇和弦、合唱、歡快、懷舊、動態。
柔軟的擁抱,舒適,低合成,閃爍,風和樹葉,環境,和平,放鬆,水。
流行電子、大混響合成器、控鼓機、大氣、穆迪、懷舊、酷、流行樂器、100 BPM。
3/4,3拍,吉他,鼓,明亮,快樂,拍手
本文素材來源Stability AI官網,如有侵權請聯繫刪除
END
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載