肖仰華:AI大模型,宣告人工智能步入“重工業時代”


作者:肖仰華,復旦大學計算機學院教授

圖片來源:由無界AI工俱生成

本文節選自複旦大學肖仰華教授在閉門會上的發言整理:

大模型助力產業發展實現“端到端”的價值變現

很高興參加本次論壇,給大家從產業發展角度分享關於我國大模型產業發展的一些思考。

首先來看一看,為什麼要對大模型有高度的重視?可以說以ChatGPT為代表的這一波大模型的發展,其實只是整個通用人工智能到來的前哨,後續又產生了一系列的技術創新,比如Dalle-2、Midjourney等圖文生成模型的發展,其生成結果有時已經可以做到以假亂真;PaLM和PaLM-2等具身多模態大模型的到來,也與機器人產業的未來發展密切相關。

自去年12月份以來,一系列對產業發展具有革命性、里程碑意義的技術創新,在短短三四個月內接二連三的到來。可以說這也宣告了通用人工智能時代的到來,未來必將掀起一番新的產業浪潮和革命。

我們認為,這一波AGI的革命是一場全新的“元革命”。大家知道歷次的產業革命、技術革命,比如說電的發明、蒸汽機的發明,都是人類智能本身的產物,但唯獨這次革命是一場關乎“智能”本身的革命——機器的智能有望接近甚至完全超越人類的智能。

關於智能本身的革命,絕不是傳統意義上那些技術革命所能比擬的,所以它更像一場“元革命”,我們需要在戰略上予以高度重視。這不單單是我個人的觀點,最近國家政治局開會也形成了這樣一種觀點,整個AGI發展太快了,現在很多觀點的刷新不能按年,要按月來算。有些報告是2個月前的內容,但是在當前飛速發展的環境下,有些觀點可能已經過時。

大模型對於產業發展來講有非常重要的意義,這涉及到我在很多場合提到過的現在數據的價值變現。發展“數智中國”、數字經濟是我們國家非常重要的發展戰略,所有地方政府都喊出發展數字經濟的口號。對於數字經濟,其中很重要的一環是數據的價值變現。我們以前做人工智能大數據,實際上變現的道路很曲折、很艱難、很重,很多投資界的朋友都在說以前投的大部分公司多年以來好像總是入不敷出。但是現在有了大模型之後迎來了一個新的機會,實現了一種“端到端”的價值變現。

大數據是不挑的,不管什麼數據,大模型都可以“煉”一下,把數據“煉”成一個大模型,並通過大模型進行賦能。你會發現它並不需要太多人的干預,不像以前做大數據、人工智能,甲方既要出錢還要出人,還需要告知知識體系、商業邏輯等要素,這是一種非常重的變現方式。但是有了大模型、有了ChatGPT之後,通過大模型統一賦能來實現數據的價值變現的這條路徑現在越來越清晰。尤其是隨著AgentGPT和AutoGPT等技術出來之後,大模型和信息系統很多能力都可以串聯在一起,共同解決商業場景中非常複雜的任務。因此可以說大模型能實現的“端到端”的變現方式給我們帶來一場重大的機遇。

對To C市場而言,大模型的意義在於有望重塑互聯網的入口。 ChatGPT在短短幾個月已經擁有2億的用戶,現在ChatGPT背後的生態插件已經非常多樣,也就是說我們可以不直接用微信跟朋友聊天,可以先跟ChatGPT聊一聊,比如要買什麼電影票,打什麼車,打開什麼地圖,訂什麼餐,這使它極有可能成為互聯網的新入口。大家知道互聯網產業入口的每一次變更都是一場革命,所以對To C來講是可以看得見的,新入口即將到來。

對於To B行業而言,大模型的第一個意義好比是引擎升級。比如我們造幾百年車了,車就是一個殼子四個輪子,但幾百年來我們從傳統的蒸汽到油氣到現在的電力,車的引擎在不斷變化。我們以前整個人工智能、大數據的產品,比如信息系統、軟件產品,用的都是小模型,現在我們可以換上大模型,這種引擎的升級換代是第一個意義。

第二,大模型有望成為To B行業中新的控制器。 To B場景下企業內部有各種各樣的信息系統,包括客戶關係管理系統、企業資源管理系統、OA辦公系統,還有數據庫、知識庫、行業文檔庫等。但是這些庫以前都是去中心化的,我們上面接一個大模型之後,這個大模型有望成為一個控制器,它可以協同企業中、生態中的各種各樣的信息系統,共同完成一個新的、更複雜的決策,完成更複雜的規劃任務。

大模型有望成為控制器,把整個傳統的信息系統串聯到一起,從而真正意義上實現To B場景的複雜決策,而To B場景本質上就是要實現複雜決策的,所以大模型對To B行業來說有著非常重大的意義。

大模型宣告AI進入重工業時代

從整個大模型產業的關鍵因素來看,可以說以生成式語言模型為代表的通用人工智能發展,基本宣告了人工智能走上了一個重工業時代。以前整個人工智能是典型的手工作坊,每個部門有很多小的部門,每個部門做一個AI產品,這都是手工作坊式。現在有了大模型以後,基本上都是優先讓道給大模型。很多企業都在這樣做,把算力全部省出來給大模型用。

為什麼說背後是這樣一個邏輯?大模型是典型的“重工業”,重工業跟傳統手工作坊有非常本質的不同,我們使用大模型賦能各個行業的關鍵,第一在於一個大模型本身能不能煉製好,第二是很多應用以及周邊的生態能不能做好。大模型進入重工業時代之後有幾個很重要的因素:

第一,大模型。所謂大模型有多大?大家應該有這樣一個印象,我們以前在BERT時代只有幾億參數,後來到十億參數。但是現在主流已經到了六七十億參數,甚至到百億參數,模型本身的參數越來越大是主要因素。

第二,大算力。大模型對於大算力提出了前所未有的需求,所有人都有深刻感受。現在所有企業要么在買算力,要么在買算力的路上,大家現在最缺的就是算力。大模型第一波競爭首先體現為算力的競爭,第二波的競爭可能體現為數據的競爭,但是目前競爭的焦點還在於算力,誰有算力誰就有主動權、話語權,這個現象目前已經體現得很明顯了。

第三,大數據。進入數據PK時代,有沒有核心高質量的數據非常關鍵。最終的贏家,至少目前的贏家是算力提供方,大家看到英偉達市值破萬億,主要邏輯就在這裡。最終的贏家有可能是數據的擁有者。

第四,精工藝。這是以往小模型時代不會關注的因素,就是煉製工藝,我們稱之為“工藝過程”。大模型的工藝過程很重要,現在煉大模型很像過去煉丹,需要把原料全部掉煉丹爐。我前幾天剛剛參觀了寶鋼,當時拍了一張照片,他們留著2500立方米的煉鋼爐,那個爐子非常大,不管什麼原料,經過初步的清洗全部在裡面,然後去煉,煉幾天出爐。煉鋼出爐就是鋼水,而我們現在練大模型出爐就是大模型,煉鋼要幹的事我們都要幹,其中第一個重點在於做原料的配方。現在數據配方是最關鍵的,把哪些數據按何種方式配比,現在很多屬於獨門秘籍,秘而不宣的。 OpenAI大模型的快速發展很多時候在於配方配得好,但是我們不知道它的配方,很多人也都在嘗試。

第二個重點在於數據清洗,寶鋼把原料送進煉丹爐之前專門有一個分廠,它專門做鋼鐵式原料的清洗,參數設計,包括火候、溫度、濕度,還有流程設計、質量控制。這都是煉大模型過程中非常關鍵的因素,這種工藝過程也是我們當前大模型產業發展過程中真正缺少的。

我國數據基礎是跟別的國家一樣好的。在模型方面,大家都用開源模型,這個不存在秘密,我們真正在什麼方面有所欠缺?我們缺在“工藝”上,我們的工藝過程不如OpenAI。現在國內大部分大模型都是在去年12月份才開始訓練,我們很難在短短三四個月內趕上OpenAI花了4年時間的訓練工藝,所以我們必須靜下心來,紮紮實實把工藝打磨好。這個事情非常關鍵。

從應用帶動模型底座,從外圍攻破內核

現在ChatGPT,或者後續版本GPT-4真的已經變得超級強大了嗎?實際上並沒有,大模型還是存在能力天花板的。我們現在有很多論調,一種是悲觀論,覺得人家甚麼都很強,而我們什麼都不行;另一種是盲目Optimism,覺得它根本什麼都不是。這兩種極端的論調、觀點都有問題,實際上我們要客觀的看,它的確是很強,但是它也有天花板,是有問題的,而它的問題恰恰是我們的機會所在。所以目前最重要的是不要被人家的發展速度沖昏了頭腦,要冷靜分析什麼能做、什麼不能做,它不能做的事情是我們恰恰要開闢的新賽道。只要我們在它們不能做的地方做得比它好,我們就有我們的價值。

現在這些大模型並不是什麼都能做。我們在很多複雜的場景,比如在To B的場景、在企業服務市場,大模型實際上仍然存在很多短板。我們這麼多年都想做司法的智能化、醫療的智能化和金融的智能化,但是這麼多年都沒能真正實現。 ChatGPT是很重要的機會,但是直接讓它去解決領域問題,現在還是很難做好。

還有在廣大的工業、農業等實體經濟方面的智能化怎麼做?這些智能化都有普遍的特點,大部分任務是複雜決策,比如工業設備的故障排查、疾病診斷、投資決策,這些都是嚴肅的應用場景,它們需要的能力絕不單單是ChatGPT現在給我們帶來的開放聊天能力。

我們承認ChatGPT開放聊天能力很強,以前聊個三天三夜都不覺得無聊,但即使聊天很有趣、很好玩,它也不能解決這些場景的問題。這些場景問題的解決取決於很多複雜的能力。

第一是需要有行業專家該有的知識,像服務器出了故障,到底什麼地方出了故障,根因是什麼?這個問題在缺乏IT的知識的條件下根本解決不了。第二是需要很多的複雜邏輯,像疾病診斷的時候,是有一些邏輯思考的。第三是需要宏觀態勢的研判能力,比如說投資決策,在不同態勢的環境下對一支股票的預判完全不一樣。第四是綜合任務的拆解能力,一個很複雜的任務,能不能拆解成一個個Atom任務。第五是精密的規劃能力,在面臨很多行動的情況下,我先做什麼、後做什麼。第六是複雜約束的取捨能力,我們在做一個決策時往往都面臨約束,比如說成本約束,所以我們需要做很多取捨:哪些約束必須滿足、哪些約束必須捨棄。第七是未知事物的預見能力,在投資過程中企業可能會出現一些難以預料的新狀況,ChatGPT未必具備人類在面臨這些突發狀況時的處理能力。第八是不確定場景的推斷能力,我們大部分決策都是在信息不充分、不完全的時候進行的,否則會喪失先機。這些能力都仍然是ChatGPT,或者說通用大模型目前沒有具備的能力。

未來大模型能不能解決這些問題,能不能具備這些能力,會直接影響到它們的投資價值。理清楚這個邏輯之後,實際上大模型最後想創造商業價值有兩個關鍵要素:

一方面是底座模型要強大,另一方面是領域應用也不可以忽視。底座模型好比一個練武術的人練內功,即使內功練得再好最終還是要練套路,不知道大家喜不喜歡看武俠小說,金庸武俠小說的氣宗和劍宗就是這麼回事,所謂的氣宗練內功,強調內功為王;所謂的劍宗認為套路為王,形式很重要。實際上這兩個因素都重要。

只重視底座大模型是不夠的,還得有領域應用,還需要領域知識,才有應用效果。

目前我們的現狀是什麼?我們一窩蜂地跟隨了底座大模型先行者的腳步,所以大模型同質化嚴重。總體而言,技術型企業往往“重模型、輕應用”,應用型企業往往“重應用、輕模型”,其實這兩個都不可取,這就跟我剛才說的氣宗和劍宗的道理一樣,既要內功深厚,也要套路熟練,這兩個都達到一定水平才能創造商業價值。

我們實際有自己的機會,雖然我們底座模型不如ChatGPT、不如GPT-4,這一塊我們要追趕。但是領域應用這塊是我們的強項,恰恰是我們國內企業擅長做的事,所以我們大模型產業發展戰略實際是很清晰的,可以走一條從應用帶動模型底座,從外圍去攻破內核的道路,去發展整個大模型的產業生態。

這是我們非常重要的思路,可以走一條“農村包圍城市”的路,從應用帶動底座,從外圍攻破內核的路。我們先把各行各業的應用做好,通過各行各業的應用帶動數據、算力、模型和工藝的研製,這些發展之後最終能帶動底座大模型的提升。我剛才也提到過,我們想花三四個月達到OpenAI花了4年發展的模型水平並不現實,我們可能要承受一段時間底座大模型不如別人的狀態。我估計這種狀態短則持續1年,長則持續2-3年或更長一段時間,我們可能要一直追趕。但是我們有很好的應用,有應用之後會給我們帶來很多機會。

不要讓大模型成為一場華麗的煙花秀

我們剛才從宏觀戰略角度提出了一些改進戰略,現在我們可以從具體對策、戰術層面進行考慮:

第一,我們可以推動數據聯盟,這是我們的優勢。像上海數據交易所,貴陽、北方數據交易所數量較多,而且我們在數據交易這塊的法律法規是相對比較健全的,還是很先進的,我們有很多的法規保障。所以我們完全可以為大模型的發展促進數據交易體系的建設,我們是有技術、有優勢的,我們可以依托數據交易所去開展這個工作。

第二,算力協同。我們一定要加快健全國產的算力生態,我們最近在策劃,把所有算力的企業叫過來,共同討論能不能推動聯盟的成立。算力只有在使用之後才能幫你反饋問題,要不然很麻煩,現在這個問題很嚴重了,而且要注意這個算力不僅僅是GPU這塊,還有網卡這塊都存在去中心化、異構的問題,這都對大模型發展帶來限制。

第三,模型生態。大模型技術本身要盡快建立健全、開源的生態。尤其是開源生態很重要,OpenAI是閉源的,我們可以發展開源的生態。開源生態可以集思廣益,讓volunteer對模型本身帶來完善和優化。

第四,人才培養。這也是我們大模型產業發展非常關鍵的一點,這裡要說幾個核心的數據,差不多在一二月份的時候,行業裡很多人認為,國內能夠做大模型的人不超過1000人,保守估計只有兩三百人,一點兒都不誇張。我自己體會很深刻,我自己的團隊,我們算是比較幸運,兩三年前就做大模型了,今年有博士生、碩士生畢業的,但凡做大模型的同學,全是身價被人家翻一倍的挖走。現在大模型人才非常稀缺,我們復旦在這個時間點有大模型煉製經驗的學生可能不超過20人,而我們整個計算機學院有將近幾千名學生。這是因為大模型煉製要求很高,首先像A1版的服務器就要備幾台,一台的成本現在是100萬,十台就是1000萬,有能力滿足設備要求的學校就不多。所以現在人才短缺是非常大的問題。這是政府、學校都要思考的問題。

此外,大模型出來之後對人才的能力和素質要求跟以往是不一樣的,我發現我們跟很多廠商合作,我們實際上最缺的是大模型做產品設計,現在大模型有這個能力,而我們傳統有很多應用,但是這個大模型怎麼嵌到應用裡面來,形成怎樣的產品,大家都不知道,懂大模型的人往往不懂產品,懂產品的人往往對大模型的認知還處在早期階段,所以這種跨學科、跨領域的Compound型人才要求特別高,這塊人才短板非常厲害。

第五,發展診斷和評測體系。現在各家自說自話,都說自己好,將來市場很需要一個客觀的評價,到底哪一家好,它好在哪。事實上比較好的狀態是各家有各家的特長之處,這一家擅長這個,那一家擅長那個。最怕的是這麼多家都說自己好,這裡面肯定同質化很嚴重,所以我們未來要建立起評測的標準和體系。

第六,要持續優化大模型的落地成本。大模型成本很高,很多甲方都在觀望,最近三個月市場特別有意思,大家都在觀望,甚至很多甲方錢都準備好了但是停下來的,為什麼?大家在想大模型是不是下一代的技術,現在貿然投入某類技術方案,馬上被大模型替代了,這個投資肯定有問題,所以大家都在觀望。觀望中有一個很重要的因素:大模型落地因素成本太高了,我們如何降低它的成本,使它給我們帶來的收益遠遠大於投入,非常重要。

第七,大模型產業怎樣向綠色、生態化發展。我兩個月前就開過玩笑,大家不用想,今年的夏天肯定更熱。據說nividia市值超過1萬億了,不知道又要有多少顯卡進入市場。這些顯卡都要消耗電能,消耗電能會發熱,所以今年暑期肯定會更熱,大家要做好心理準備。我估計明年也是這樣,關鍵問題是什麼?其實都是能源消耗問題,我們消耗太多的能量來做計算,將來人工智能產業的綠色化、生態化是非常重要的問題,很快,我相信要不了多久大家會意識到這個問題的嚴峻性。

第八,持續加快大模型的技術研究。大模型技術並不是像大家想像得那樣完美,仍然存在很多問題,比如,一本正經的胡說八道,大模型的亂編亂造,大模型的幻覺,大模型到底體現誰的價值觀、意識形態,以及大模型的隱私洩露,大模型的安全等等,這裡面有太多等待解決的問題了。

由ChatGPT所引發的通用人工智能產業變革,我相信才剛剛開始。我們需要以更深切的思考、更紮實的實踐,牢牢抓住大模型以及其他通用認知智能技術給我國數字化轉型與高質量發展所帶來的全新機遇……大模型絕不是宣傳文案中的噱頭,也絕不能成為一場華麗的煙花秀,而要成為實實在在的能夠推動社會發展與進步的先進生產力。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts