前沿對話:中國AIGC新機遇,如何掘金大模型和應用雙賽道


3月29日消息,首屆中國AIGC產業峰會在京舉行,大會由量子位主辦,聚集起了領域內產學研代表,分享和探討了包括大模型、生成式AI、ChatGPT等在內時下熱議趨勢和話題。

在題為《中國AIGC新機遇》的圓桌對話環節,量子位主編金磊與4位從業者展開了精彩的探討。他們是:

元語智能聯合創始人兼COO朱雷;
峰瑞資本投資合夥人陳石;
無界AI聯合創始人馬千里;
華院數智人商業化副總裁林萊尼。

圖片來源:圓桌環節

以下為圓桌內容,經巴比特整理,有刪減。

金磊:我們每個話題都設置了一個關鍵詞,第一個關鍵詞叫“感受”,在這波AIGC熱潮中,你最直觀的感受是什麼?

朱雷:

震撼和衝擊。比如,ChatGPT在各行各業接受程度和應用深度,遠遠超過了我們的預期。原來對AI的關注群體都在小圈子裡,AI也僅僅是在某些環節裡應用,這次它破圈了,這是一個非常大的技術變革。

陳石:

經歷了幾次AI的技術變革,但這次還是讓我們感到驚訝,突然一個跳躍,不是連續的變化。它已經具備了通用人工智能的火花,而且還在不停銷毀,所以也很驚喜。

從產業角度來說,它一定對整個人類社會的效率、體驗,都會是一個非常大的提升,很本質地改變各行各業,特別是內容行業、教育行業、科研等等。

所以,我們很興奮,這是人類的福祉,前提是你不要背叛人類。另外,我覺得也是創業者很好的機會。

馬千里:

站在創業者的角度看會更加焦慮,因為發展速度太快了。你做了大量工作,但是有可能在大模型底部的創新,或者是別的團隊的創新,他們很快就能趕上來,有時候會有技術的焦慮感。

另一方面,其實是所有行業內的人都在焦慮,甚至傳統產業的一些人也在焦慮,因為他們焦慮他們會找到我們,抱團取暖。比如奇瑞汽車、上汽集團,有做潮玩的,做快消品的等等,他們都會找到我們,他們會把他們的設計需求,把他們的一些訴求提給我們,我們一起去做AI的訓練,甚至他們給我們大量的私有化數據,就像某一家做房產的,他們有大量的建築設計的那些比較隱私的圖片,他們會把這些圖片給到我們,我們一塊去做訓練。他們擔心的是說如果他們不參與到這個浪潮裡就會被淘汰掉。

所以,雖然有焦慮,但更多是在焦慮中有前進的感覺。

金磊:我們的第二個關鍵詞叫做模型同質化和創新性。就目前來看,無論是AIGC應用的玩法,或者是背後算法模型似乎有同質化的趨勢。你覺得中國AIGC的原創性該如何體現?

朱雷:

目前來講,在基礎研究或者原創性上國內與國外是有一段距離。但是不是說我們目前做自研的大模型沒有價值?我覺得反而勢在必行。

第一點,我們國內都在做中文語料的大規模梳理,中文數據集,中文的通用語料質量相對來說會差一些,開源氛圍也差一些,比如醫療這個行業,國外有很多開源數據集,國內我們了解到只有兩個,一個是杭州這邊有家醫院,一個是自貢市有數據集。我們要做這個事情,就要推動開源數據集以及開源模型的一個氛圍和一個生態構建。

第二點,現在大模型的AI基礎設施在國內已經達到了相當高的重要程度的量級,這個時候對人才的吸引力很高,從長期角度來看,這個事情的意義對於國內做基礎設施的,長遠上來講是非常有價值的。

說到國內的這些模型的同質化和創新性,對於國內初創公司來講,創新性是要體現在你要對於這個行業有足夠多的理解,以及迅速地在行業內把數據和場景跑起來。對初創公司來說,你可以在模型底層數據層面上和指令微調層面上做一定的創新性。

馬千里:

做產品創新來說擁抱SD(國外開源文生圖模型stable diffusion)生態沒有太多的關係,因為大量數據訓練其實還是要自己去做。你如果想做出差異化,這是自然一種選擇。

現在開發國風模型(國風風格的文生圖),我們會有大量國風類圖片數據,比如像中國人的臉、外貌,比如漢服,需要很具體、很精細區分不同時代、名族服飾樣式,你的左衣襟和右衣襟之間都會是有區別的,做國風類圖片的這些人他很要求這些東西。

這是一方面,最重要創新在於,中國的用戶數據是非常重要的。我們無界AI平台A有200萬用戶,每天創作接近3000萬張圖片。這些內容被大量用戶的收藏,使用一鍵同款製作,等等,這麼多用戶的行為給你反饋。我們會把這些受到喜歡的作品的關鍵詞,拿來做進一步模型訓練,使得我們平台能力得到增強,得到創新,這也使得雖然基於開源SD,但是我平台的作品質量會和市面上大部分產品不太一樣,因為我們有自己的數據循環在裡面,這是一個創新點。

林萊尼:

如何定義數智人原創性,首先從底層算法來說和小冰、科大訊飛確實差不多,但是第一個我覺得數智人本身分類型,分了三個類型,比如像魔法科技的柳葉熙走中國國風系列,有非常好的價值引導。我們公司這種類型屬於功能服務型,我們就滲透到各行各業,我們擁有自己領域型知識圖譜。第三種偏向遊戲開發理念,遊戲裡面一些虛擬分身。所以本身從數字人來說,我們就是分行業、分領域、分功能。

我們公司專注做領域型知識圖譜,所以數智人只是我們在傳達表達領域型知識圖譜一種載體,他本身就是多模態的組合,原來是文字和語音,未來多模態則可以基於圖像理解,生成圖像任務型交互,創新性主要看每一家公司所深耕的領域在哪裡。

金磊:我們看到好的模型出來,或者科技熱點出來,國內會一窩蜂擁上去,這會不會產生一些泡沫,你怎麼看待這個問題?

陳石:

這次不僅僅是國內,海外也是一窩蜂。有個統計是2022年平均四天出一個大模型,大概90多個大模型,主要是以美國為主。

熱度當然很高,但我不認為這是一個短期的熱潮,我不認為他是泡沫,我覺得它會經歷很長時間的進步,會產出很大的社會價值和商業價值。

金磊:

針對大模型還有一個問題要討論一下,就是參數規模,這個關鍵詞叫做大力一定會出奇蹟嗎?大力出奇蹟這種方式一定是AIGC未來必經之路嗎?

馬千里:

如果能出奇蹟不管大力還是什麼力都是好事情,在國內大家覺得大力出奇蹟是一件壞事情,其實不見得是壞事情。

另一方面,有一個觀點說,人類智能希望干預機器,教機器怎麼下圍棋,讓他學習人類的棋譜。其實最有效的方法是自我學習,無監督的學習,一定程度上我們人類太多干預反而限制了它的發揮。本質上可能還需要大量算力,算法上也會跟進,不是那麼強的去干預它。

金磊:咱們訓練一次大模型,參數特別大的話,動輒數千萬美元成本,投資角度來看你如何看待大力出奇蹟事情,創業公司有機會嗎?

陳石:

大力出奇蹟是必然,就是這個階段,因為這次是無監督學習的一個突破,因為無監督學習特別是大規模無監督學習一直是機器學習的聖杯,從來沒有人取得過這個聖杯,但是我覺得OpenAI把這個聖杯拿下來了,本身就是要靠大量的數據無監督的去學習產生的,我覺得是一個趨勢,是當下被驗證的一個事情,所以估計大家還會這麼做。

商業角度來說,我覺得大的模型還只能這麼訓練,但是作為創業者去專注於做應用層創業,其實可以不需要自己去訓練模型,最多可以說在一些大模型基礎之上做一些調優。我覺得大部分創業機會可能還是在非模型層,或者說是在一些垂類的模型。

大模型,我覺得未來中國可能也不會有太多家,全球也不會有太多家,有一些模型可能是垂類模型,這個是很大的機會。

金磊:我們最後一個關鍵詞,“中國AIGC新機遇”。我們想請在座各位用簡短一句話來談談你對它的一個期待。

林萊尼:

我們會發現互聯網企業可能對於35歲+的這些人群不是非常友好,我們也會思考,AI真的是創造了失業潮嗎?後來我覺得也並不是,我很喜歡一句廣告詞,“永不放棄,奔向未來”,面向未來一定要Brave。

馬千里:

對於中國的機遇來說,可能未來的大模型,即使你和國外有差距,甚至有幾倍的差距,但是可能對於人類來說都夠用了。

蘇聯和美國冷戰的時候,都說自己能毀滅地球多少遍,其實毀滅一遍就夠了。 AIGC產生的能力可能會強到,即使兩個模型之間有百分之多少的差距,但都無所謂,對於人類來說夠用了,這是一個長期的看法。

另外,即使現在我們在大模型上,的的確確可能沒有外國人那麼強,但是從邏輯上我們應該還是能趕上的。

陳石:

我覺得其實這是全人類的機遇。

另外,我覺得中國是有機會做成一個自己的大模型的,因為算法是人類共同科研的成果,它整個的訓練過程起碼在GPT3我們都看的到,包括ChatGPT人類反饋的強化學習,也都看到了這個過程,可能有一些語焉不詳。所以做一個大模型剩下的是一些工程的工作,在工程工作上我們中國的工程師是不怕的。

從算力維度講,這個事情還是需要慢慢來,我覺得可能盡量去想一些替代的辦法,就是有自己的算力,或者以別的方式獲取一些算力。

數據呢,我覺得我們是可以做到的,因為數據集這個事情,相對我們還是有辦法的。

憑著中國人的聰明程度,我覺得基礎模型是可以突破的,當然復現到今天GPT4這個能力,可能還有差距,但是是時間問題。

在應用層面,微信、釘釘等,歷史已一再證明,中國在軟件的應用上是很厲害的。

朱雷:

我非常同意陳石總的看法,雖然說現在跟GPT4比技術差距還是有的,但確實是時間的問題。但是是機遇的同時也是一種挑戰。我最後一句話就是我們要擁抱AI。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts