作者:澎湃新聞
記者邵文
·生數科技成立於2023年3月,核心成員主要來自清華大學人工智能學院,是國內最早佈局多模態通用大模型的團隊之一。本輪融資由螞蟻集團領投,百度風投、卓源資本跟投,目前估值1億美元。
國內多模態大模型發展出現新動向。 6月19日,由清華大學計算機系教授、人工智能研究院副院長朱軍帶領的新團隊完成了近億級天使輪融資。
澎湃科技(www.thepaper.cn)了解到,這家名為北京生數科技有限公司(以下簡稱“生數科技”)的多模態大模型創業公司宣布完成近億元人民幣的天使輪融資。由螞蟻集團領投,百度風投、卓源資本跟投,目前估值1億美元。本輪融資後續將主要用於核心研發團隊的建設,加速多模態大模型和應用產品的研發。
多模態大模型指的是將文本、圖像、視頻、音頻等多模態信息聯合起來進行訓練的模型。此前,OpenAI聯合創始人伊爾亞·蘇茨克維(Ilya Sutskever)曾表示,“人工智能的長期目標是構建多模態神經網絡,即AI能夠學習不同模態之間的概念,從而更好地理解世界”。
生數科技模型支持的圖像生成。
生數科技成立於2023年3月,由北京瑞萊智慧科技有限公司、螞蟻集團和百度風投聯合孵化成立,前瑞萊智慧副總裁、畢業於清華大學計算機系的唐家渝出任首席執行官,致力於打造可控的多模態通用大模型。據悉,這是ChatGPT火熱後,螞蟻集團第一次下場投資大模型公司,也是朱軍在瑞萊智慧後的第二次創業。瑞萊智慧是一家人工智能基礎設施和解決方案的提供商。
生數科技的團隊核心成員來自清華大學人工智能研究院,主要是朱軍帶領的課題組。該課題組致力於貝葉斯機器學習的基礎理論和高效算法研究,是國際上最早研究深度概率生成模型的團隊之一。 2022年1月,該團隊提出的無訓練推理框架Analytic-DPM被OpenAI應用於DALL·E 2模型處理策略中,此後提出採樣算法DPM-Solver,現作為全球最快圖像生成算法被Stable Diffusion等大量開源項目所採用。
修改視頻中畫面元素(提示語: a Swarovski crystal swan is swimming in a river),最左原視頻、中間生數科技效果、最右Runway效果。
據介紹,生數科技是國內最早佈局多模態通用大模型的團隊之一,其於2023年初開源了全球首個基於Transformer的多模態擴散大模型UniDiffuser,首次實現基於一個底層模型高質量地完成圖生文、圖文聯合生成、圖文改寫等多種生成任務。
Transformer模型於2017年由谷歌的一個團隊推出,是一種深度學習模型,可以按輸入數據各部分重要性的不同而分配不同的權重。該模型主要用於自然語言處理(NLP)與計算機視覺(CV)領域。 GPT等目前主要的大模型均基於Transformer開發。
“整體來看,目前業內做圖像生成大模型的思路是一樣的,都是基於擴散模型。我們的創新之處在於修改了底層的主網絡,首個把Transformer用在Diffusion Model技術裡面實現多模態。”唐家渝近日在接受媒體採訪時說。
唐家渝認為,現階段市面上的模型和產品僅僅解決了初級階段的可生成性問題,但生成的結果仍有很大的不確定性和不可控性,模型對用戶意圖的把握、精確細節的控制仍存在很大不足,比如難以對生成的圖像畫面中元素的位置、細節做到準確的控制,生成的3D模型在表面精細度、色彩光影的準確性方面仍處於較低水平。
3D內容生成(提示語:a DSLR photo of a blue jay standing on a large basket of rainbow macarons)。
生數科技向澎湃科技介紹,其在3D內容生成方面,研發了業內首個基於三視圖自動生成3D內容的技術,以及無需任何3D訓練數據的文生3D內容技術,效果方面可以做到細節精細化,能夠接近產業級應用,“所訓練的大模型在圖像生成方面已超過Stable Diffusion最新版基礎模型水平,預計將於年內赶超Midjourney最新版本。”
Stable Diffusion是由初創公司StabilityAI、CompVis與Runway合作開發的文本到圖像生成模型,於2022年發布,現已開源。 Midjourney是一款2022年3月面世的文本到圖像生成工具,經歷多個迭代,進入公開測試階段,其逼真效果引發中文網絡熱議。 Stable Diffusion和Midjourney都是目前全球範圍內行業領先、評價很高的AI工具。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載