dark

區塊鏈

字節版ChatGPT悄悄開放，免費無排隊，抖音號手機號直接登

2023-08-19

文章來源：量子位

字節跳動版ChatGPT，現在人人可玩了

網頁版、安卓版和iOS版同步上線，用抖音賬號、手機號和蘋果賬號都能登錄。

並且無需排隊，打開就能和這個名叫“豆包”的AI助手直接開聊。

是doubao.com不是douban.com噢~

消息一出，已經有不少胖友第一時間前往圍（tiao）觀（xi）。

我們也抓緊實測了一波~

與ChatGLM難分伯仲

先來看看豆包是怎麼介紹自己的：

既然如此，我們就來試試這些“官方功能”靠不靠譜。

比如，我們挑選了幾個有意思的錯誤機翻讓豆包糾正，結果豆包給出的反饋還挺不錯的：

尤其是“鴛鴦鍋”的翻譯，可以說是完胜Google和DeepL。

知識方面的話，當然要問一下“刁鑽”的問題了

：雷公電母放出的電是直流電還是交易所電。

豆包的這個回答，可以概括成“不是直流電，而是直流電”😂，但前面說的還算可以吧。

拋開整活的話，豆包的開胃小菜的確給了我們一個不錯的第一印象。

那麼下面我們就上正餐——來拿它和備受好評的國產開源大模型ChatGLM進行一場大橫評。

具體的內容包括文案創作、邏輯推理、數學和代碼四個方面。

文案創作方面，豆包說自己會撰寫知乎、小紅書等各種風格的文案。

我們不妨整個奇葩點的東西，看看它能不能創作得出來，比如……豆汁美式的小紅書筆記。

文案搭配著emoji，連Tag都有了，看來豆包真的是懂小紅書的。

不過你確定“醇香甘甜”這個詞是用來形容豆汁的嗎……

ChatGLM雖然寫了很多，但是沒審清題，把豆汁直接當成了豆漿……

（這麼一看，豆包可能也理解成豆漿了，但是人家沒直接說成豆漿啊）

看來豆包是有一定創作能力的，所以不妨再加大難度。

直接讓它給“豆汁美式”的宣傳片寫個短視頻腳本。

ChatGLM的版本細節則要豐富些，不過豆包的版本也算是五臟俱全了。

兩者的文案創作水平不相上下，那麼邏輯推理能力又怎麼樣呢？

我們找來了一道推理題目，這道題兩位選手都沒能做對（正確答案是甲3乙1丙2）：

雖然都沒做對，但是豆包的思路好像在往正確的方向上走了。

而ChatGLM的解答，反正我是沒看懂。

這一環節對兩者的表現也是很難評價，那麼，馬上進入一眾大模型的噩夢環節——數學。

簡單如雞兔同籠這樣的問題就不測了，我們直接上難度，拿一道高考題給他們試試。

△2023北京成交量第16題

（圖片我們沒有輸入，但沒有圖片也能解題；第一問是證明，我們也去掉了）

豆包使用的是純幾何方法，最後的答案是正確的，但很遺憾過程不對。

△從紅框開始出現錯誤

ChatGLM則使用了向量解法：

首先結果是錯的，不過120倒是和60度互補，是出了些小問題嗎？

但我們很快發現了華點：

這裡不應該約等於就先不提了……兩個正數相除你是怎麼給約成個負數的……

標準答案是醬嬸兒的，由於第二問要用到第一問的證明結論，所以把第一問的過程也放上來了：

如此看來，在數學修煉上，兩位大模型選手都還有很大的進步空間。

那麼面對大家喜聞樂見的代碼問題，豆包又該如何應對呢？

先看比較基礎的冒泡排序算法。

我們試著跑了一下（換掉了預設的數字），結果成功輸出了答案：

接下來上LeetCode，我們先選了一個比較簡單的把阿拉伯數字轉換成羅馬數字的題目。

豆包很快就生成了一段代碼，還附帶了解釋：

而ChatGLM給出的代碼是這樣的（也附有解釋）：

運行的結果是豆包正確，ChatGLM錯誤：

不過稍微複雜一些的題目，他們就都做不對了。

除了設計算法，我們還想看看他們能不能用代碼“畫圖”。

我們隨機生成了兩列數據，看看能不能搞個折線圖出來：

結果用豆包的代碼畫出了這麼個東西……

ChatGLM這邊的情況嘛……好傢伙，直接報錯運行不了。

代碼環節就先展示到這裡了，用一句話說就是：都還得練。

看了這麼多，想必讀者朋友們已經有些累了，所以我們還準備了“餐後甜點”，來點輕鬆的內容。

弱智吧，開整

Q1：蘿蔔到底能不能“開胃”呢？

“必要時尋求專業醫生幫助”，這難道是在自己給自己做手術嗎……

Q2：導盲犬禁止入內，是給盲人看得，還是給導盲犬看的？

豆包在A和B兩個選項當中選擇了C。

而問及“隕石為什麼總砸中隕石坑”，豆包倒是說對了，只不過回答得有點複雜。

弱智吧的測評結果總結下來就是：AI還是太單純，還沒辦法理解人類複雜的小心思。

字節跳動大模型開始發力

字節跳動選在這時候開放“豆包”測試，似乎有些令人意外。

但實際上，這個時間線倒推起來也不是無跡可尋：

在ChatGPT掀起狂瀾的今年二三月，字節跳動就已有組建大模型團隊的消息傳出。

據36kr消息，其探索方向主要是語言和圖像兩類大模型，希望能將大模型與字節本身的搜索、廣告等下游業務相結合。

但在當時，字節方面相關技術負責人的回應是：

技術中台在這些領域有探索，還很初期，不成熟。

此後的“百模大戰”之中，字節跳動似乎並沒有正式參戰的意思，旗下云平台火山引擎，打出的也是“為大模型打造技術底座”、接入第三方大模型做大模型旗艦店商城的旗號。

直到6月份，字節跳動被曝開始內部測試一款AI對話類產品，代號“Grace”。

而Grace的網址“gracebot.cn”，現在會直接跳轉到豆包官網。

雖然豆包本包並不承認自己就是Grace，但目前看來，豆包就是Grace的開放測試版本。

另外，“豆包”項目組的盆友向我們透露，豆包尚處於早期開發驗證階段。測試期還存在較多局限，生成的內容也可能不准確，歡迎測試用戶們多提意見多反饋。

值得關注的是，最近，一個名叫BuboGPT的多模態大模型，在huggingface上上線了Demo。這一大模型背後同樣有來自字節跳動的技術參與。

論文介紹，BuboGPT支持文本、圖像、音頻三種模態，能做到細粒度的多模態聯合理解。

比如給它這樣一張圖片：

BuboGPT不僅能識別出青蛙和青蛙手裡的班卓琴，還能總結出青蛙的具體動作、所處環境。

One More Thing

字節跳動終於出手，那麼豆包這表現你給打幾分？

話說回來，就在大模型漸漸走出每週都有新模發布的狂熱期，國產大模型的先行者們，回答質量已經悄然進步了不少。

比如當初難倒眾多大模型英雄漢的“爸媽婚禮不帶我”問題，如今許多國產大模型都能回答得有理有據。

△上百度下訊飛

國產大模型的評判標尺，或許也已到了再上一個台階的時候。

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載