Stability AI 推出了Stable Audio 的新版本,具有一組用於創建音訊剪輯的擴展功能。
我們的新模型可讓您產生長達3 分鐘的高品質音頻,將AI 音樂生成提升到一個新的水平。每個人都可以產生長達3 分鐘的音頻,包括我們的免費計劃用戶https://t.co/0xqQcrHLbwhttps://t.co/MlV0jiULEF
– 穩定音訊(@stableaudio) 2024 年4 月3 日
第一代型號可產生長達90 秒的音訊檔案。 Stable Audio 2.0 創建的曲目長度增加了一倍,並具有更多自訂選項。
先前的版本僅使用文字作為提示,但新版本能夠以聲音片段作為參考。人工智慧可以匹配它產生的音訊風格,從而產生更準確的結果。
Stability AI 的代表聲稱該模型可以創建「包括引子、發展和結尾的結構化作品」。與上一代相比的另一個改進是創建音效的能力。
穩定音頻基於擴散模型。它與其他AI演算法的區別在於它的訓練方式:在測試過程中,模型接收一組有錯誤的聲音片段,並負責恢復原始聲音。
新版本使用了一種稱為潛在擴散模型的技術的專門實現。與其他神經網路一樣,此類模型是在類似於它們在生成過程中處理的文件的資料集上進行訓練的。但在訓練開始之前,資料集被轉換為數學結構,這使得AI開發過程更有效率。
以這種方式修改的資料集稱為潛在空間,它只包含最重要的細節。較不重要的資訊被刪除,這減少了AI 模型在訓練過程中必須處理的整體資訊量。這使您可以減少設備數量並降低成本。
Stability AI 工程師還增加了基於Google 2017 年開發的Transformer 架構的新神經網路。主要用於建構語言模型。 Transformer 在解釋數據時會考慮大量上下文信息,使其能夠產生最準確的結果。
Stability AI 在新聞稿中表示:“這兩個元素的結合產生了一個能夠識別和複製創作高品質音樂作品所需的大規模結構的模型。”
Stable Audio 2.0免費提供給用戶,該API將允許其他公司將AI模型整合到他們的應用程式中。
在此之前,Adobe推出了Project Music GenAI Control,幫助人們在沒有專業經驗的情況下創作和編輯音樂。
回想一下,二月份,Stability AI 宣布了第三代Stable Diffusion。
在社群網路上訂閱ForkLog
發現文本中有錯誤?選擇它並按CTRL+ENTER
ForkLog 電子報:隨時掌握比特幣產業的脈動
資訊來源:由0x資訊編譯自FORKLOG。版權歸作者ForkLog所有,未經許可,不得轉載