實測騰訊AI文生圖王者榮耀畫風一鍵直出，小程式就能玩

原文來源：量子位元

圖片來源：由無界AI生成

鵝廠大模型，又有新玩法

發布不到兩個月，騰訊混元大模型就速通了一個新版本，除了語言模型升級以外，還悄悄上線了AIGC最火熱🔥的功能——

文生圖。

和語言模型一樣，文生圖同樣可以透過微信小程式直接體驗。

不過與Midjourney獨立出圖不同，混元的文生圖和對話功能“互不耽誤”，可以邊聊邊畫，與DALL·E 3體驗相似。

之前已經申請測試通過的，可以立刻衝了~

還在排隊中的也別急，我們已經快速實測了一波熱圖，這就先放出來給大夥兒看看。

混元文生圖上手實測

根據騰訊介紹，混元大模型文生圖最大的優點在三處：真實感、中文理解、風格多元。

接下來就挨個試試它做到了什麼程度。

先來畫人，復刻一波之前爆火過的Midjourney「寫實90年代北京情侶」看看。

請輸出一張攝影風格的照片，在20世紀90年代的北京，一個男性和一個女性，面帶微笑，坐在屋頂，穿著夾克和牛仔褲，有很多的建築物，真實感

可以看出，寫實風格的人像還是很拿手的，人物姿態合理，畫亞洲人臉與國外AI相也比較自然。

注意這裡有個小技巧，想要寫實風格的話最好用「生成一張…」來觸發，如果用「畫一張…」大機率會得到插畫風格。

寫實風格的人像可以，再看看畫風景如何。

除了一般的風景描述，混元大模型支援指定一個真實存在的景點，例如「桂林山水」或「長城」。

畢竟是AI生成，跟真實景觀不會完全一樣，但感覺還是到位了。

接下來要上難度了，把這兩個場景「組合」起來：

生成一張桂林山水，但是岸上有長城，攝影風格，真實感，高度細節。

這麼離譜的需求都畫出來了，甚至水面還有水波，看來不是簡單重現訓練數據，而是對概念有一些自己的理解。

那麼更複雜的概念如何呢？

曾經，AI因不理解中文菜名鬧過一波笑話。

經過這半年的發展，「紅燒獅子頭」裡不會出現獅子的頭，「夫妻肺片」裡也不會變成恐怖片了，甚至看著還挺香。

要說比菜名更有挑戰性的，就到了古詩詞，正好寫實風格也看膩了也可以換換口味。

產生一張圖片：孤舟蓑笠翁，獨釣寒江雪，水墨畫風格。

總得來說還不錯，美中不足之處在於一張圖沒有“舟”，還有一張舟上坐了兩個“翁”，就沒有孤獨的意境了。

看來詩詞這種過於凝練的還是有難度。

But，別忘了混元助理同時擁有聊天對話能力，也支援多輪對話。

借助強大的語言模型部分，我們也找出解決方案。

接下來只要用「這些要求」、「上述要求」來指涉上面的回答，就可以讓兩個功能連起來了。

再畫就會更穩定，增加了雪花飄落的細節。

記住這個小技巧，接下來還會用到。

其實在騰訊混元助手中，專門準備了這樣一個存為指令的功能。

存好後就可以從對話框右邊的魔法棒圖示處快速呼叫了，只需要更改要描述的內容。

還可以方便一鍵分享到微信，4張圖一次分享讓好友幫忙選，不用來回截圖了。

直接打開分享鏈接，就可以放大查看四張圖，還可以開始新對話

了解混元大模型的中文理解能力，再來試試最後一個特點風格多樣性。

既然是騰訊出品，遊戲插畫肯定少不了，像是正火的賽博龐克風。

有點感覺了，但總覺得差點意思。

可以用上面的技巧來，連動語言模型來明確賽博龐克風格的特徵。

再手動加億點點料，就更對味了。

不同遊戲的畫風差距極大，測試下來混元助手確實能hold住不少，從3D到2D甚至像素都沒問題。

即使是同一話題和風格限定，也能展現出不同的畫風，Furry控狂喜（doge）

其實騰訊透露，內部多個場景已經用上了混元大模型文生圖能力。

雖然還不知道具體怎麼使用，但我們測試了一下用《王者榮耀》來當風格限定詞，混元也能理解。

除了遊戲之外還有廣告場景，前面提到的混元大模型文生圖真實感的優點也能發揮出來。

也別忘了騰訊還有一大塊內容業務，來個奇幻小說插圖也沒問題。

這樣的文生圖效果，背後究竟是透過什麼原理實現的？

在此之前，業界其實已經有不少文生圖的開源模型。

騰訊是基於其中某種方案打造，還是重新進行的自研？

帶著種種問題，我們和騰訊混元大模型文生圖技術負責人蘆清林聊了聊，了解了一下背後的技術細節。

模型全自研，用20億+圖文對煉成

“從演算法、數據系統到工程平台，都是從0到1自研。”

蘆清林表示，這也算是騰訊混元大模型文生圖功能的優勢，這樣從生成自由度到資料安全性，就都能完全把控，也讓生成的影像「更符合使用者需求」。

首先是在算法這一塊。

目前文生圖模型普遍存在三個困難，語意理解差、構圖不合理、畫面細節無質感。

語意理解差，就是模型聽不懂人話，尤其是中英文夾雜的人話。

目前業界普遍採用的是開源的CLIP演算法，然而它一來沒有建模中文語言，輸入中文只能靠翻譯，會出現紅燒獅子頭真的生成獅子的問題（doge）；另一個是訓練時圖文對齊能力不行。

構圖不合理，指的是生成的人體結構、畫面結構有問題，直接「生異形」。

如果直接基於業界已有的開源擴散模型產生影像，就容易出現這個問題，像是出現「三隻手」或各種奇怪的畫面結構。

畫面細節無質感，就是生成影像清晰度差。目前不少資料集影像解析度和品質不高，容易導致訓練出來的開源模型品質也不高。

為了解決這三個困難點，騰訊混元團隊在演算法階段，特意用了三類模型組合來「逐一擊破」。

語意理解上，騰訊自研了跨模態預訓練大模型，不僅讓它同時學會建模中英文，而且強化文本和圖像細粒度特徵的聯繫，簡單來說就是中文、英文、圖像三者的“跨模態對齊」。

生成構圖上，騰訊自研了一種擴散模型和Transformer混合的架構，尤其是將Transformer當前大火的旋轉位置編碼研究給用上了。

旋轉位置編碼通常被用來增加大模型的上下文長度，不過在這裡被騰訊巧妙地用於刻畫人體結構，讓模型既能掌握全局資訊（人體骨架）又能理解局部資訊（臉部細節）。

最後是在畫面細節上，騰訊自研了超解析度模型，同時也結合了多種演算法，針對影像不同的細節進行最佳化，讓最後產生的影像進一步「耐看」。

這樣做出來的模型架構，不僅能產生品質更高的圖片（解析度1024×1024），而且只需要微調架構，就能變成圖生圖、甚至是文生視訊模型。

接下來，就是關鍵的數據部分了。

對於文生圖而言，產生影像的質量，很大程度上取決於資料的質量，OpenAI在DALL·E 3論文中，通篇都在強調資料對於指令跟隨的重要性。

騰訊也非常重視資料對模型的重要性，也同樣自研了三方面的技術。

在資料品質上，由於網路上扒下來的資料集，往往存在文字描述簡潔、和產生內容不完全匹配的問題，因此團隊透過改善圖-文對資料中心化的「文」部分，也就是細化中文的文字描述，來提升圖文資料的相關性；

在資料效果上，團隊針對訓練資料進行了「金銀銅」分層分級，等級越高，代表資料清洗程度越精細。

其中，20+億未清洗的“青銅數據”，用來對所有模型進行“粗加工”，也就是預訓練；

6億+“白銀數據”，用來對生成模型進一步加工，提升生成品質；

1.12億+精心清洗的“黃金資料”，則用來對模型進行“精加工”，也就是精調突擊訓練，確保訓練出來的模型品質更優秀。

在資料效率上，為了加快訓練速度，尤其是針對使用者回饋對模型進行最佳化的速度，騰訊也建立了資料飛輪，自動化建構訓練資料並加快模型迭代，讓模型產生準確率進一步提升。

根據蘆清林透露，數據飛輪這個技術，也正是解決數據長尾場景難題的關鍵。

由於我們的生活中總是出現一些潮流新詞，例如“玲娜貝兒”等，這種名詞往往在數據中心化不常見，而用戶又會在輸入時使用，因此往往需要第一時間更新進訓練資料中。

有了資料飛輪，就能將這個流程效率進一步提升，避免模型在見識新詞後，依舊長時間無法產生對應的影像。

最後，有了演算法和數據，還得有個工程平台，把它們組合起來快速訓練。

為此，騰訊自研了Angel機器學習平台，包括訓練架構AngelPTM和推理架構AngelHCF。

訓練上，大模型最重要的就是並行能力。為此，騰訊基於4D並行+ZeROCache機制，實現了千億參數混元大模型的快速訓練。

直覺來看，AngelPTM訓練框架相比業界主流架構DeepSpeed-Chat速度提升了1倍以上。

推理上，AngelHCF則實現了支援多種平行能力、支援服務部署及管理、以及自研模式無損量化三大功能，相比業界主流架構提升了1.3倍以上。

值得一提的是，在Angel機器學習框架與平台的支援下，騰訊混元的語言模型也進行了一輪升級，尤其是程式碼能力有不小的提升。

我們也簡單測了測騰訊混元大模型更新後的程式碼能力。

先試試寫程式碼，以幫老師寫一個「隨機點名程式」為例（手動狗頭）。

混元大模型很快就產生了一段註解的完整程式碼：

import random

# 假設班上有50個學生，這裡是他們的學號
student_ids = [‘001’, ‘002’, ‘003’, ‘004’, ‘005’, ‘006’, ‘007’, ‘008’, ‘009’, ‘010’,
               ‘011’, ‘012’, ‘013’, ‘014’, ‘015’, ‘016’, ‘017’, ‘018’, ‘019’, ‘020’,
               ‘021’, ‘022’, ‘023’, ‘024’, ‘025’, ‘026’, ‘027’, ‘028’, ‘029’, ‘030’,
               ‘031’, ‘032’, ‘033’, ‘034’, ‘035’, ‘036’, ‘037’, ‘038’, ‘039’, ‘040’,
               ‘041’, ‘042’, ‘043’, ‘044’, ‘045’, ‘046’, ‘047’, ‘048’, ‘049’, ‘050’]

# 使用random.choice()函數從學生學號清單中隨機選擇一個學生
random_student_id = random.choice(student_ids)

# 列印隨機選取的學生學號
print(「隨機抽取的學生學號是:」, random_student_id)

實測可以絲滑運行，每次都能抽到不同的幸（dao）運（mei）兒（dan）起來回答問題：

然後我們也發現，混元大模型竟然還能幫忙查程式碼bug，屬實是程式設計師省心利器了。

當然，無論是文生圖或程式碼能力，現在都已經可以在騰訊混元助手中體驗。

實測騰訊AI文生圖王者榮耀畫風一鍵直出，小程式就能玩

今天以太坊超過4300美元，山寨幣季節即將到來，頂級加密貨幣收益率如何

加密行業組織加密行業反對銀行遊說修改美國《GENIUS穩定幣法案》

將LLM引入互聯網計算機

2025年全球最佳五大AML認證計劃

Circle在主網上啟動Gateway 以提升多條區塊鏈的資本效率

您的加密貨幣安全性如何？探索數字資產背後的隱秘風險與挑戰。

隨著生態系統開發的進步，基於以太坊的項目Pepeto預售金額突破630萬美元

火星早報｜加密貨幣市場持續下跌，交易員預計美聯儲將大幅降息

實測騰訊AI文生圖王者榮耀畫風一鍵直出，小程式就能玩

Related Posts