文本直接生成20多種背景音樂，免費版Stable Audio來了

來源：AIGC開放社區

9月14日，著名開源平台Stability AI在官網發布了，音頻生成式AI產品Stable Audio。（免費使用地址：https://www.stableaudio.com/generate）

用戶通過文本提示就能直接生成搖滾、爵士、電子、嘻哈、重金屬、民謠、流行、朋克、鄉村等20多種類型背景音樂。

例如，輸入迪斯科、鼓機、合成器、貝司、鋼琴、吉他、歡快、115 BPM等關鍵詞，就能生成背景音樂。

目前，Stable Audio有免費和付費兩個版本：免費版，每月可生成20個音樂，最大時長45秒，不能用於商業；付費版，每月11.99美元（約87元），可生成500個音樂，最大時長90秒，可用於商業。

如果你不想付費可以多註冊幾個賬號，可以通過AU（一種音頻編輯器）或PR將生成的音樂拼接起來可達到同樣效果。

Stable Audio簡單介紹

在過去幾年，擴散模型在圖像、視頻、音頻等領域獲得了飛速發展，可顯著提升訓練和推理效率。但音頻領域的擴散模型存在一個問題，通常會生成固定大小的內容。

例如，音頻擴散模型可能在30秒的音頻片段上進行訓練，並且只能生成30秒的音頻片段。為了打破這個技術瓶頸Stable Audio使用了一種更先進的模型。

這是一種基於文本元數據以及音頻文件持續時間，和開始時間調整的音頻潛在擴散模型，允許對生成音頻的內容和長度進行控制。這種額外的時間條件使用戶能夠生成指定長度的音頻。

與原始音頻相比，使用大幅度下採樣的音頻潛在表示可以實現更快的推理效率。通過最新穩定音頻模型，Stable Audio能在不到一秒的時間內，使用NVIDIA A100 GPU渲染出95秒的立體聲音頻，採樣率為44.1 kHz。

訓練數據方面，Stable Audio使用了一個超過80萬個音頻文件組成的數據集，包含音樂、音效以及各種樂器。

該數據集總計超過1.95萬小時的音頻，同時與音樂服務商AudioSparx進行合作，所以，生成的音樂可以用於商業化。

潛在擴散模型

Stable Audio所使用的潛在擴散模型（Latent Diffusion Models）是一種基於擴散的生成模型，主要在預訓練的自動編碼器的潛在編碼空間中使用。這是一種結合了自動編碼器和擴散模型的方法。

自動編碼器首先被用來學習輸入數據（例如圖像或音頻）的低維潛在表示。這個潛在表示捕捉了輸入數據的重要特徵，並且可以被用來重構原始數據。

然後，擴散模型在這個潛在空間中進行訓練，逐步改變潛在變量，從而生成新的數據。

這種方法的主要優點是可以顯著提高擴散模型的訓練和推理速度。因為擴散過程在一個相對較小的潛在空間中進行，而不是在原始數據空間中進行，因此可以更高效地生成新的數據。

此外，通過在潛在空間中進行操作，這種模型還可以提供對生成數據的更好控制。例如，可以通過操縱潛在變量來改變生成數據的某些特性，或者通過對潛在變量施加約束來引導數據生成過程。

Stable Audio使用和案例展示

「AIGC開放社區」體驗了一下免費版Stable Audio，使用方法與ChatGPT差不多直接輸入文本提示即可。提示內容包括細節、心態、樂器和節拍四大類。

需要注意的是，如果想生成的音樂更細膩、有律動性和節奏，輸入的文本也需要更細化。也就是說，你輸入的文本提示越多，那么生成的效果就約好。

Stable Audio使用界面

以下是生成音頻案例展示。

恍惚、島嶼、海灘、太陽、凌晨4點、漸進、合成器、909、戲劇和弦、合唱、歡快、懷舊、動態。

柔軟的擁抱，舒適，低合成，閃爍，風和樹葉，環境，和平，放鬆，水。

流行電子、大混響合成器、控鼓機、大氣、穆迪、懷舊、酷、流行樂器、100 BPM。

3/4，3拍，吉他，鼓，明亮，快樂，拍手

本文素材來源Stability AI官網，如有侵權請聯繫刪除

END

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載