作者:陳萍
現在,大模型的發展態勢已經從單模態迅速轉向多模態研究了。
就如Hugging Face 聯合創始人Thomas Wolf 所說的:過去幾年裡,好的多模態模型一直是許多大型技術實驗室的聖杯。
不僅如此,多模態也一直被學術界奉為達到通用人工智能的必經之路。就在不久前,OpenAI 的CEO Sam Altman 透漏出一個重要消息,表明2024 年GPT-4 的發展方向也是奔著多模態去的。
一時之間,各大科技公司、機構爭先入局多模態領域。國外如微軟等機構提出可組合擴散模型CoDi,但這種模型只能同時處理圖片、文本、聲音、視頻4 種模態,對傳感信號、3D 點雲等模態還無法處理。
在國內,作為早早佈局多模態大模型的科研機構,中國科學院自動化研究所自2019 年開始在語音、文本、圖像等單模態大模型研究和應用的基礎上,向多模態大模型攻關,並於2021 年7 月正式發布了全球首個千億參數多模態大模型「紫東太初」。
今天上午,在人工智能框架生態峰會2023 上,中國科學院自動化研究所和武漢人工智能研究院推出新一代大模型:全模態大模型「紫東太初2.0」版本,依托華為全棧國產化軟硬件平台昇騰AI 與開源AI 框架昇思MindSpore,「紫東太初2.0」在文本、圖像、語音三模態的基礎上,融入3D 點雲、視頻、信號等更多模態數據,現已支持多輪問答、文本創作、圖像生成、3D 理解、信號分析等全面問答任務,擁有更強的認知、理解、創作能力,帶來全新互動體驗。實現了真正意義上的任意輸入,任意輸出。可以說大模型的發展已經從單模態、多模態,進化到全模態賽道上了。
中國科學院自動化研究所所長徐波表示:「紫東太初2.0 全模態大模型是自動化所持續探索可自主進化的通用人工智能道路上的里程碑。」
大會上,中國科學院自動化研究所(以下簡稱自動化所)還進行了現場演示,演示效果得到大家的一致好評,現場環節,觀眾還提出了自己問題,紫東太初都對答如流。例如,現場觀眾要求「生成竹林圖片,中國國畫風格」。從現場來看,紫東太初生成的竹林圖片還不錯。
除了現場演示外,機器之心也上手測試了紫東太初2.0,下面我們看看這個全模態大模型到底有哪些能力。
紫東太初2.0:一個模型打通全部模態
打開紫東太初2.0,對話界面是這樣的:
首先讓紫東太初2.0 做一段簡短的自我介紹,並獲知了它的數據日期:
接下來,機器之心從文本創作、知識問答、圖文音理解、3D 理解、信號分析等多個方面對紫東太初2.0 進行了全方位的測評。
文本創作
首先考察紫東太初2.0 的文學創作能力。毋庸置疑,創作能力是每個對話大模型都要具備的重要能力之一,無論是生成詩歌、散文、劇本等。首先要求紫東太初「創作一篇關於夏天的散文,200 字」。從結果來看,紫東太初2.0 的文筆還是不錯的,字數也符合要求。
紫東太初2.0 幫助招聘人員寫招聘材料也不在話下,它能把公司的大體情況,職位要求都寫的很清楚,以後寫招聘文案的活可以放心的交給它了:
知識問答
文本創作能力對大模型來說是件很容易的事,接下來考察紫東太初2.0 的知識問答能力,看它能否準確理解用戶輸入的問題語境,並實時地做出對應的知識性問答。
如今的大模型不僅要具備通用能力,還要有多樣化的垂直專業能力,回答專業範疇內的問題(比如醫學、天文地理、影視、哲學等等)。紫東太初2.0 在這方面也做得很好:
此外,紫東太初2.0 具備多語言能力,可以處理多語言任務,包括中文、英文、法文等。那麼是否具備譯者的基本能力呢?我們先讓紫東太初2.0 翻譯了《再別康橋》節選片段,結果來看還不錯。
接下來,我們在將問題難度提高,看看紫東太初2.0 邏輯推理能力。測試下來,結果顯而易見,它的頭腦還是相當清醒的。對於藍牙耳機壞了等問題,紫東太初沒有陷入圈套,給出了正確的結果:
大模型是否實用的一個重要方面在於它的數理能力,因此數理推算是測評必不可少的內容。經典的雞兔同籠問題,紫東太初輕鬆拿下:
圖文音理解能力
紫東太初在圖文音理解能力方面怎麼樣呢?這也難不倒這個大模型,例如生成一張小狗的圖像,一眨眼的功夫,一張可愛的小狗就出現在眼前:
難度加大,這次我們讓它生成白色的小狗,這也不在話下,然後我們接著問圖中幾隻小狗,模型都能回答正確:
然後,我們上傳一段音樂,讓紫東太初2.0 進行識別,結果也都準確:
接下來你也可以追問,肖邦的生平:
除此以外,紫東太初還能進行3D 理解、信號分析。
3D 理解
如下是室內3D 點雲圖,將點雲數據上傳,模型就能基於點雲數據的3D 場景進行理解和物體感知,例如你可以問點雲中包含什麼物體,模型都能回答:
信號分析
紫東太初還支持信號鑑別與知識交互,可藉助模型快速掌握信號基本來源及參數等。輸入信號,紫東太初給出了信號名稱、帶寬、赫茲等重要信息:
多模態對話能力
最後考察一下紫東太初2.0 多模態對話能力。我們輸入一張狼的圖片,以及狗叫聲,問圖片和聲音是不是對應同一種動物。
之後,我們繼續測試:輸入一張圖書管和汽車喇叭聲音,問這段聲音有沒有可能出現在這個場景中,紫東太初回答正確(這也是現場Demo 展示的,親測一下,結果也是正確的):
一番測試下來,紫東太初2.0 各項能力還是很能打的。
歷經1.0,紫東太初2.0 進入全模態發展階段
回望2008 年,自動化所團隊開始單獨攻關圖像、文本、音頻技術;2020 年1 月,他們開始轉向多模態人工智能大模型研究,研發紫東太初大模型;2021 年9 月,紫東太初1.0 作為全球首個千億參數三模態大模型正式發布。如今,紫東太初2.0 全模態大模型已經發布了。
大家都了解,在數字物聯時代,除了我們人類自身產生的語音、圖像、文字等數據外,還有機器產生的大量結構化和非結構化數據,例如攝像頭、醫學影像、力觸覺、工業傳感信號等。針對數字物聯時代的新需求與新趨勢,紫東太初2.0 誕生了。從技術架構上實現了結構化和非結構化數據的全模態接入。面對全模態數據,紫東太初2.0 率先實現了認知增強的多模態關聯,在全模態理解能力、生成能力和對齊能力上實現了躍升。
總結而言,紫東太初2.0 具有三大技術特點:
首先,紫東太初2.0 可以實現結構化和非結構化數據的全模態開放式接入; 其次,紫東太初2.0 可以全模態分組認知編解碼,實現多種數據信息的充分理解和靈活生成; 最後,紫東太初2.0 實現了有效融合多任務的認知增強多模態關聯技術等。
由此,紫東太初2.0 打通了感知、認知乃至決策的交互屏障,具有全模態能力湧現,使人工智能進一步感知世界、認知世界,從而延伸出更加強大的通用能力,深入貫通多模態人工智能行業應用。
目前,由自動化研究所牽頭打造的多模態人工智能產業聯合體已吸納產學研界近70 家成員單位。
發布至今,紫東太初大模型已經在神經外科手術導航、短視頻內容審核、法律諮詢、醫療多模態鑑別診斷、交通違規圖像研讀等領域被廣泛應用。
此外,基於紫東太初大模型,團隊還打造了面向行業應用的紫東太初開放服務平台。平台只需少量行業樣本數據,即可通過低代碼一站式開發,產出自主可控的行業相關大模型,大大提升開發效率,普惠千行百業。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載