追求某個行業、某個領域數據的精準、數據的反饋,落實到應用上面還是小模型更靠譜。
來源:未來科技力
本文是5月31日品玩舉辦的“模型思辨——國內大模型生態研討會”上,品玩創始人、CEO駱軼航與360集團創始人、CEO周鴻禕的對話實錄,經整理編輯發布。
訪談人:駱軼航
受訪人:周鴻禕
大模型確實要比光刻機簡單很多
駱軼航:我現在是品玩的首席大語言模型佈道師,今天跟我對話的既是中國大語言模型領域的一個主要builder,他也是一位大語言模型領域的evanglist(佈道者)。過去幾個月我們看到他在各種場合分享了對大語言模型趨勢的看法,當然他自己的團隊也在做大語言基礎模型。他就是360集團的董事長和CEO周鴻禕先生。
周鴻禕:我前不久生病了才病癒,我是第一次陽,後遺症比較嚴重,如果一會兒產生大模型幻覺,說錯什麼話,大家不要在意。
駱軼航:那取決於我怎麼給prompt,出現模型幻覺的原因往往是prompt給得不好。
周鴻禕:我在下面聽你開場講了這麼久,感覺已經快溢出了。
駱軼航:那是你的Token不夠用了。那好,我爭取用短小精準的prompt問你問題。過去三個月所有人都在討論大模型,您覺得春節以後,中國和美國在大語言模型領域的差距是更大了還是更小了?
周鴻禕:我覺得當然是更小了,因為在ChatGPT剛出來的時候,我這個做搜索的人,用搜索的思路去看人工智能,簡直覺得匪夷所思不可思議,原來研發大模型的路徑答案可以是這樣的,你也完全不知道它的工作原理是什麼。
但最近幾個月國內同行陸陸續續發布了自己的大模型,雖然客觀來講跟GPT4.0還有點差距,相比GPT3.5也有點差距,但差距沒有那麼大。
順道吐個槽,國內測試大模型特別喜歡用腦筋急轉彎的形式,但如果你看微軟對GPT4.0的測試,其實在推理能力以及非常長的思維鏈的能力上,GPT4.0是遙遙領先的。
話說回來,千里之行,始於足下,原來不知道什麼是預訓練,不知道什麼是微調,不知道什麼是用戶強化學習,踩了很多坑。 ,又從百億參數到幾百億、上千億的參數,現在總算做出一個能用的東西,雖然有差距,但也是非常大的進步。
國內研發大模型滿打滿算,起步晚的過了春節開始做,到現在也就三五個月時間,再次證明大模型確實還是要比光刻機簡單很多。
不過昨天看到英偉達的黃仁勳發布了GH200芯片組,我覺得差距是不是又拉大了。
駱軼航:所以我才問差距究竟是在變大還是變小,這個事是動態的,一會兒大一會兒小。
周鴻禕:要看角度。算力差距肯定是拉大了,人家內存大概144TB,整個模型放進去都綽綽有餘,這樣就不需要搞好幾百台電腦集群訓練了,同樣參數的模型,過去一個月才能訓練完的,現在三個小時或者一天就能訓練完。
這種迭代速度太驚人了,因為很多時候訓練的結果不一定是收斂的,可能訓練一個月後發現是一地雞毛,還得從頭訓練,但一個月的時間已經過去了。因此別人的訓練速度可能比你快上百倍,從這個角度來說,中美之間算力帶來的大模型差距拉大了。
我的感覺跟你是一樣的,大家都感覺很焦慮,三個月就像三十年,每天都有層出不窮的圍繞大語言模型的成果,軟的硬的,各種框架開源工具都有出來。但整體來說,我還是傾向於比較樂觀。
駱軼航:但不少同行覺得用一個很快的時間就能追趕上ChatGPT的現在水準,當然ChatGPT本身也在迭代。
周鴻禕:我覺得差距是客觀存在的,只是行業中有人愛吹牛,如果要準確預言差距將會在哪一天趕上,我個人覺得還是應該謙虛一點,畢竟中國還是有很多人真正用過GPT4.0的,你不能因為大部分人都沒見過就吹牛吧。
我們應該找到差距在哪裡,然後找到合適的場景充分發揮它的能力同時讓用戶對創新和麵臨的困難有寬容和理解的接受度,不然吹牛吹得太大,大家期望很高,結果一用起來很失望。
垂直領域的機會還遠遠沒有表現出來
駱軼航:同行中您比較看好誰?是比360體量更大的巨頭,還是創業公司?
周鴻禕:我覺得各有各的優勢,最關鍵的是中國不會只有一個GPT4.0就滿足了,也不會只有一個大模型。
現在有一個趨勢是把大模型做小,小到一台安裝了英偉達3090、4090芯片的機器可以微調,甚至是將來在IoT(物聯網)設備上部署,這就決定大模型算力結構將來會無處不在。
當年計算機剛出來的時候也有人總結過,全世界人民需要五台超級電腦就夠了,但真正改變工業革命的東西是個人電腦,進入每個家庭、進入每家公司,安裝不同軟件來干各種各樣的事情。
駱軼航:也就是說會湧現出許多垂直模型?
周鴻禕:我覺得會比想像像更快。
大家需要改變想法,不要以GPT4.0作為Benchmark(對標)。 ,就像一個哈佛培養的博士後,水平是很高,獲得了十幾個博士學位,我們想複製一個短期內有點難,但這不妨礙我們培訓出來一個211或者985的大學本科生,他的場景目標很現實,就是直接訓練垂直業務。
因為你用GPT就會發現很多問題它貌似能回答,但缺乏行業深度,因為它太通用了。如果把大語言模型看作一種生產力工具的話,我非常堅信在垂直領域其實很多機會遠遠沒有被表現出來。要是真正完全用ChatGPT4.0看病,開的藥方你敢吃嗎?你真正完全用ChatGPT寫訴狀打官司,那不是會出事嗎?美國有一個例子就是一家公司打造了法律行業的大模型,它不會唱歌、不會寫詩、不會做腦筋急轉彎,但會回答法律問題。
因此,很多企業都需要自己定制的ChatGPT。
駱軼航:隨之開發成本、部署成本、訓練成本會降低對麼?
周鴻禕:這事兒已經不是秘密了,因為難度降低了很多,所以還是要感謝開源,各種大模型相當於新鮮的大腦供你選擇,至少短期內將knowhow(知識和認知)變成用數據灌進往裡面進行預訓練,或者根據行業的特點,針對將來行業可能用到的能力進行微調。
訓練的數據和訓練的方法現在一樣重要了,感謝開源生態,這些方法都在逐步被顯露出來。擁有和部署一個大模型的成本在急劇降低,但要是說大模型目標就是比肩GPT4.0甚至5.0,那投入依然是巨大的,競爭依然是激烈的。
三星前不久有員工把公司的機密數據放到ChatGPT上訓練導致數據洩露,這是一個很典型的例子,無論是國內還是國外都可能就存在數據洩露的問題。現在很多企業試圖訓練自己的GPT,因為他們攢了很多安全內部數據,這些數據是他們的吃飯傢伙,能夠拿來去訓練一個通用大模型嗎?不可能。
所以只能去訓練企業專有GPT,讓大語言模型更了解行業,更了解企業。未來這個市場應該是有非常大的場景和機會。
今天下午我會參加我們公司一個視覺大模型和智能設備結合的發布會。大家現在都在談軟件APP,智能硬件的AIoT一直沒有真正實現,大模型真正成為人工智能以後這方面有非常巨大的機會,將是又一個重要的應用場景。
現在的智能網聯汽車,比如特斯拉,要不要用大模型?肯定要,但車的速度很快,需要響應很及時,大模型如果在雲端可能不一定能及時響應,而車上安裝一個大模型成本不會特別高,可能就是一個英偉達3090處理器的成本。
駱軼航:是車要追求精準,大語言模型精準不了。
周鴻禕:所以只有專有垂直的大模型才有可能解決所謂幻覺的問題。
駱軼航:只有專有的大模型才不胡說八道。
周鴻禕:大模型胡說八道不是獨有的,大家都有這個問題。舉個例子,你問所有GPT大模型,湯姆·漢克斯演過幾個電影?它最後一定會胡說八道一堆湯姆·漢克斯沒有演過,甚至壓根不存在的電影給你。我對這個知識模糊思考了很久,這是生成式智能算法不可避免的問題,它在模仿人類學習知識的過程中更注重對知識範式的學習,對知識的細節做了很多壓縮,甚至是有損壓縮。
駱軼航:跟人類學習的過程都是反的。
周鴻禕:只是部分沿用人類的學習過程,對知識模糊的應對必須藉助搜索能力。大模型並不能夠取代搜索,相反,一個強大的搜索無論是基於全文檢索還是向量數據庫,能夠對大模型帶來兩個校正。一個就是訓練時間延誤導致的不知道“今夕是何年”的問題,另一個就是知識模糊,很多可笑的問題如果有搜索能力做輔助那容易就可以解決,在企業級和專業級大模型上都是如此。
駱軼航:能不能說通用大模型的出現,是為了未來出現更多解決特定問題的小模型?
周鴻禕:對,包括Hugging Face最近出現一些新的計算框架,本身和模型沒關係。有一種思路是主駕駛思路,因為大模型善於理解語言,可以跟人交流,這樣在理解人的意圖以後,大模型可以調用很多其它應用系統或其它小模型。我們幹嘛為什麼一定要讓哈佛出來的有十幾個博士學位的教授來幹所有的事情呢?十幾個不同專業的員工用不同的小模型、不同的訓練方法幹不同的事情才是合理的,最後需要一個大模型把它們協調起來。
這裡還有一個成本問題,維護千億級的大模型,不說預訓練成本很高,就是定期每個季度組織訓練一次,做一些微調,成本都會非常高。如果是做企業專有的垂直模型,可能一個60-70億參數或者100億參數出頭的模型,維護運營成本會非常低,改動起來也會非常快速,所以大模型並不是萬能的。
最近Hugging Face還有一個“Agent”模式,就是有外面的“Agent”調用大模型,完成工作規劃、分解和落地。圍繞大模型有很多程序,也有很多小模型、小應用可以彌補,它們就像膠水一樣粘合在一起。大模型不是萬能的,但通過各種模式合在一起可以取長補短,完成擅長的事情。
不要太著急於所謂“大模型生態”
駱軼航:追求某個行業、某個領域數據的精準、數據的反饋,落實到應用上面還是小模型更靠譜。
周鴻禕:我們自己訓練大模型過程中發現一個特點,就是數據種類必須非常均勻,摻點文科的,摻點理科的才行,如果最近狂灌物理題就會出現遺忘現象,很多技能會急劇下降,我猜跟訓練過程中內部概率統計的參數變化有關係。
要做一個很大的模型,滿足十個億用戶的長尾需求,一會兒能算高數問題,一會兒能給出人生答案,一會兒能寫一首詩,一會兒能寫寶馬汽車廣告文案這是非常難的。
為什麼我鼓吹力倡中國走大模型之路?可能我不是在一夜之間追上GPT,需要有幾年的時間,但不能說追不上GPT我們的產品就是垃圾,就不做了,不做的話永遠趕不上別人,但達到60、70分甚至80分的水準,在很多垂直領域中,這種弱點就變得不那麼重要了。
駱軼航:打個不恰當的比喻,其實通用的大語言模型更像蘇格拉底和柏拉圖,因為那個時代的先知什麼事情都知道,物理學、數學、化學都懂,包括亞里士多德,我們期待對人類更有用的模型可能是錢學森、袁隆平,就是在具體領域非常專精的。
周鴻禕:我說的比你還極端,大模型就像當年個人電腦,它本身是通用架構,加上不同的軟件、不同的環境,可以乾很多事情。
我覺得今天不要太著急這個Ecosystem構建大模型的生態環境,因為現在大家對大模型怎麼做的都還沒有搞弄清楚,你指望生態系統直接出來直接考慮做生態系統?我覺得有點太著急了操之過急了。
現在大家連發布都還沒正式發布,只有發布以後。這裡還大模型的應用不只是在to C的場景,另外我個人覺得大家也要關注大模型在to B領域的應用。像你這樣研究prompt,研究大模型的,門檻和難度還是比較高的,儘管個人消費者也可以用它來但分析一個上市公司的年報,讀一篇論文,個人消費者也可以使用,但普通用戶真的會用嗎?大多數人沒有這種學習的慾望和分析的需求的。
大模型最大的意義就是作為企業、國家、行業提高生產力的工具。
我想給品玩一個建議,其實品玩沒有必要做。
駱軼航:是品玩沒有必要做大模型還是品玩都沒有必要做了?
周鴻禕:沒有必要做模型,只要打造一個駱軼航的個人GPT就好了,上面掛一個360行車記錄儀,每天去哪裡全部記下來,站在台上的一個小時,全部都數字化記下來,把這些數據全部鏈接訓練兩年,就能訓練一個專有的駱軼航版本的GPT,訓練兩年。
《流浪地球2》就描繪了數字影像,把你的人生拷貝在U盤裡面,然後插在一台超級計算機,電影裡好像叫W500。我剛開始想這不是鬼話天方夜譚嗎?等我看到GPT後就發現這是完全有可能的,哪一天我把你“幹掉”以後,你不就永生了?因為我們還是可以跟你的數據分身進行交流,你的數據分身可以站在台上滔滔不絕地回答我的問題。
駱軼航:你寧願看到我的分身也不願意看到我本人是嗎?回到剛才的問題,你還是沒回答國內更看好誰做大模型。
周鴻禕:你問我更看好哪個GPT,我覺得我看好的都不重要,所有公司都有自己的優點,特別是中國互聯網公司為什麼都要自己做?第一難度沒有那麼高,第二代表著人工智能的未來,因此不是用了別人的API就可以的,必須要對別人有所了解。
GPT優先解決要NLP(自然語言處理)問題,NLP是所有人工智能皇冠上的明珠,誰參玩透了語言的理解誰就真正理解了這個世界,成為未來其它人工智能任務的底座。 OpenAI最大的創新和指明的道路,就是把所有文本序列當成一個sequence(序列)進行猜測和預測,所以現在處理視覺、處理聲音,大體也都是這個思路。用大模型做多模態效果要比原來的CNN(卷積神經網絡)和DNN(深度神經網絡)的玩法先進很多。
如果我們把所有東西都看成序列,那麼從機器人到自動駕駛,都有可能用大模型結合其它模型形成技術上的突破。 DeepMind對蛋白質的分析,甚至人類對基因序列的分析,大模型算法都有可能幫助形成突破,因為基因序列也是一種序列啊。 !甚至,大模型工具在將來可能變成數學家、物理學家手裡的工具,幫助人們研究前沿科技。
駱軼航:現在大家都在講生成式Generative生成式人工智能,或者是Predictive預測式人工智能,它們的背後都是一套通用的大模型底座是嗎?
周鴻禕:對。目前網上出現的很多開源給的已經不是一個“乾淨”的東西,而是經過預訓練很多數據集,能力雖然不高,但General知識是有的,剩下就是交給自己微調,就像往專業方向發展。最近國內也有開源的趨勢,所以我覺得還是得感謝開源。
駱軼航:您覺得現在開源的趨勢怎麼樣?最近也有很多中國開發者是在開源社區裡面,但還有哪些方面做得不夠?
周鴻禕:國外的想要開源是因為這是體現了市場經濟條件下的人多力量大,聚集更多的人,因為靠一家公司、一個團隊支撐不了。我覺得Meta的LLAMA系列的發展就是相互刺激,可能一個開源項目只有40分,但刺激你一下就會做到60分,另外一家可能做到80分,國內還沒做到是習慣把開源改一改自己用。
駱軼航:不再把自己的成果返回給開源Community。
周鴻禕:可能需要一個過程。
我覺得三個月都像過了三十年
駱軼航:因為大語言模型的出現,General AI這樣的人工智能出現,您認為未來五年會發生什麼?
周鴻禕:怎麼總是想那麼長遠的事情?我覺得三個月都像過了三十年。
其實現在我的策略非常清楚,再牛的人也要符合大勢,中國的大勢就是產業數字化,互聯網數字化的公司在裡面其實是配角。我覺得360就是做好兩件事情:一個是數字安全,光是網絡安全不夠,要有數據安全。另一個是人工智能安全,這是最複雜的,也是現在大家最關心的。我們國家可能也有很多政府部門關注這些事情,今天還回答不了人工智能產生意識以後變成新的物種會不會造成大規模的社會問題。
我認為人工智能的意義不亞於電腦和互聯網,是一場新的工業革命,也是數字化的頂峰。大家好不容易上云有了大數據,但這不是數字化的終結,得把大數據轟灌到大模型裡,變成一個通用的智能服務才能像電一樣賦能百行千業。
360現在所做的各種場景都值得用人工智能重做一遍,所以會把存量和增量的場景都做一遍。
駱軼航:不光是存量,增量也有很多。
周鴻禕:就是打造企業級、行業級的GPT,包括面向中小企業的GPT。直接給到中小企業大模型他們是不會用的,必須經過SaaS化的包裝,所以就是安全和數字化兩條腿。
謝謝你給我的這點廣告時間。
駱軼航:廣告時間還是要給的,但今天還是更感謝週總,時隔幾個月迭代得這麼快,已經迅速地從對大語言模型的迷思中走出來。美國人要談民主化人工智能、民主化大語言模型,如果我們也套用他們的話,最重要的就是讓每個人都能夠用對自己真正有用、讓每個開發者用得真正更簡易,每個想搭建自己模型的人,真正搭建符合自己企業、產業、行業需要的模型。
周鴻禕:這就是科技平權,我一直在思考GPT這種大語言模型究竟能夠帶來多大變革?我們這一代人跟英偉達黃仁勳黃老闆一樣,四十年前經歷了PC的問世,你會發現電腦被發明的時候是沒有帶來產業革命的,就算再強大,它只是軍隊研製核武器的工具,是氣象局預報天氣的工具,是政府做人口統計的工具,跟普通人沒有關係。
什麼時候產生工業革命?其實就是科技平權,PC走進千家萬戶。手機也是一樣,因為智能手機,今天一個流浪漢也任何人都能拿出手機刷短視頻,找你刷二維碼付費。一個東西多有力要看是不是能夠滲透到千家萬戶、百行千業,原來大數據不具備這個能力,。品玩公司可能也有大數據,但想直接利用的話很難,需要有人幫你分析。
大語言模型解決了利用大數據、分析大數據的問題,創造了一種通用人工智能的問答能力甚至寫作能力、討論能力,這種通用能力使得跟行業無關,能夠賦能百行千業,賦能千家萬戶,我認為這絕對是工業革命級的發明。
駱軼航:最後扯一個小閒天您怎麼評論黃仁勳目前的生意和英偉達萬億市值?
周鴻禕:這個我很難評價,我跟老黃最熟的時候是他最失意的時候,那個時候他一直在為英偉達的微電子芯片找出路,當時英偉達試圖進軍移動市場,但是他的手機芯片實在是太熱了,熱到發燒。
我那時和一個創業者一起想要用芯片做家用遊戲機,進入console game(手柄遊戲)這個市場,於是就跑到矽谷去見老黃了,老黃很重視這件事情,請我吃牛排大餐,但事實證明,console game是非常獨特的市場,歷史上只有索尼、微軟和任天堂成功了。
老黃其實有一段時間業務很迷茫,希望給業務尋找出路,所以對來自中國的兩個創業者也表現出很大的尊重和尊敬。我認為老黃今天的成功不是運氣,而是靠堅持得來的。按照我設想的情況,以後大模型無處不在,如果都需要英偉達的機器,需求當然是很大。
過去幾年我們都在建立超算中心,但很多超算中心都閒置,因為它無法做通用計算任務,缺乏一個通用計算架構,如果都換成英偉達的A100或者A800,保證大概生意會好得多,因為全世界對英偉達的需求還是非常旺盛的。
展開全文打開碳鏈價值APP 查看更多精彩資訊