國產大模型新進展,光芒照進聽覺領域


按照傳統看法,AI與大模型等涉及到的機器學習概念主要中心化在“視覺”領域,經過不懈努力,現在已經拓展到聽覺領域了。清華大學與火山語音團隊合作,推出認知導向的開源聽覺大模型SALMONN,名稱源於Speech Audio Language Music Open Neural Network的首字母縮寫。 Demo鏈接:https://bytedance.github.io/SALMONN/

如果僅以人的角度來看,視覺與聽覺是既獨立又配合的信息系統。但從電腦,大模型等涉及到AI的角度來說,從視覺到聽覺的跨越絕非動動嘴或手指那般想像中的簡單,其中的意義可以用美國登月先驅阿姆斯特朗的那句名言概括: “這是我個人的一小步,也是人類的一大步。”

與傳統的語音輸入或語音助手等不同,僅從名字上就不難發現,SALMONN對講話、語音、音頻、音樂等各類音頻信號輸入都具有感知和理解能力,相當於給大模型加上了耳朵,再以此為基礎發展出多語言、跨模態推理等更複雜且高維的能力。具體說來,SALMONN的底層大模型是Vicuna 13B,即著名的“羊駝”,加一個基於Whisper Encoder的通用音頻編碼器,再來一個負責對齊音頻和文本模態的融合器。在這套設施的配合下,SALMONN就對音頻信息具有了直接感知能力。

而傳統的音頻處理手段較為繁瑣,在接受到音頻信號後先要通過API調用底層工具將音頻轉化為文字信息,再將文字信息輸入大模型做後續處理。與之相比,SALMONN可以直接從現實世界獲取知識,並在一些複雜場景中也有很好的理解和處理能力。而且由於訓練數據全部基於文本指令,因此也可以說它擁有跨模態的交互能力。

官方發布的模型解析圖

從目前的消息來看,SALMONN能夠勝任多種多樣的語音相關任務,同時又有多種在訓練時沒有專門學習過的多語言和跨模態能力,如不同語種的語音識別、英語到其他語言的翻譯、對語音內容的摘要與提取關鍵詞、通過音頻生成故事、音頻問答、語音和音頻聯合推理等任務。

根據官方團隊的說法,SALMONN能處理的任務,依據從易到難的程度可以分為三類:1.訓練中就學習過的任務,2.訓練中沒學過,但SALMONN能夠基於文本輸入完成的任務,3.訓練中沒學過,需要直接感知音頻或視頻的多模態大模型才能完成的任務。

如果僅看論文和demo很容易覺得SALMONN“不過如此”,但前面已經提到過,機器視覺與機器聽覺屬於兩個領域,目前經常提到的AGI(通用人工智能)和機器學習等概念裡,關於聽覺的研究仍然以“語音助手”或類似的形式出現,比如十幾年前就登上iPhone的Siri。雖然概念非常前沿,但機器聽覺的發展卻長期不如機器視覺那樣迅速且高產,即使現在AGI,大模型等概念非常火熱,但機器聽覺似乎還是難以引人注目。

之所以會有如此窘境,主要是因為機器聽覺與機器視覺的先天性差異,以及由此導致的一系列困難。過去曾介紹過,蘋果的Siri已經算是質量很好的語音助手了,但依然經常被人嘲諷為“人工智障”。後來又有消息說蘋果對Siri也有諸多不滿,歷次發布會裡對它一直都很少提及,即使提到可能也只是“更智能”“更強大”之類的套話。之前馬克·古爾曼爆料蘋果在秘密開發Apple GPT時也說過,Siri部門長期陷於費力不討好的泥沼中,蘋果多年來一直想為Siri進行一次革命性更新,甚至是為此而單獨規劃生產線,專門出一款新產品,將Apple GPT與Siri集成到一起或許是一種好方法,能識別語音且能用語音控制的大模型,的確是比較酷的。

此次清華大學與火山語音合作推出的SALMONN可能就走在這樣一條路上,也的確展示了全新的玩法,或許沒多久就有更多類似的新產品問世了。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts