ChatGPT後下一個熱點:能為你「做」一切的AI ,才是真助手


作者:Sia

圖片來源:由無界AI生成

在推出了一款AI 寫作助手之後,人工智能初創公司HyperWriteAI 又走在了前面——最近,他們推出了一款可以像人類助手一樣辦事的數字助理Personal Assistant 。

一經推出,口碑不俗。

生成式AI 初創企業Cohere 聯合創始人兼CEO AidanGomez 讚賞其為「……第一次看到真正的『個人智能體』。」

網友反響也不錯,聲稱這項工作讓人震撼,瀏覽網頁操作自動化將迎來變革。

要說個人助理,市面競品其實不少,Personal Assistant 究竟有何獨特魅力?與眾不同?

公司宣稱,Personal Assistant 是第一個可以與瀏覽器交互操作的AI 智能體(AI Agent)。

如果你覺得這個回答有點抽象,我們幫你問了Personal Assistant,讓它解釋一下自己「與其他LLM 驅動的虛擬助手最大區別是什麼?」

「我可以與網頁瀏覽器交互。」它說。

其他助手基於海量的知識來生成文本和答案,而我擅長的是搜索信息、導航到某個網站、填寫表格以及與網頁上的各種ARIA 元素交互。

Personal Assistant 回答自己與其他大模型驅動的助理的最大區別。

那麼,什麼是智能體(Agent)?

在大模型語境下,可以理解成能自主理解、規劃、執行複雜任務的系統。

AI 智能體( AI Agent)並非ChatGPT 升級版,它不僅告訴你答案,更重要的是它會幫你去做(do it),等於給雙手雇了一個「跑腿」的(ChatGPT 不擅長)。

給你的瀏覽器安裝Personal Assistant 這個插件後,AI 就可以幫你完成人類在網上所做的事情,無論是在上面做研究、買東西、訂購服務還是瀏覽新聞、收集信息,等等。

你要做啥,就告訴Personal Assistant,然後做你的甩手掌櫃,它會為你自動完成任務。

接下來,我們感受一下它的神奇能力。

如果需要出行,想預訂行程,告訴Personal Assistant 出發地與目的地以及具體時間,Personal Assistant 會進入瀏覽器頁面主動搜索符合要求的出行方案。

DEMO演示

接下來,Personal Assistant 會挑選出幾個較為合適的方案供你選擇。選擇後,你的行程就將預訂成功。

Personal Assistant 還能為你搜索和總結信息。

「Find the Techcrunch article about the HyperWrite AI Agent and summarize the information。」我們給了它一個命令。

接著,系統打開谷歌瀏覽頁,在搜索框裡自動輸入相關要求,等待一段時間後,相關網頁一一呈現出來,一共兩頁。

不過,Personal Assistant 發現HyperwriteAI 的產品根本未被Techcrunch 報導過,所以找到另一家科技媒體的報導文章並給出內容總結。

接下來,我們嘗試了Personal Assistant 的寫郵件能力。

我們告訴它,「Navigate to Gmail and send a creative one line email to xxx thanking her for pretty gift for my birthday。」

系統隨後導航到Gmail 頁面,獲得郵件服務授權後進入郵箱,自動填充收信人並根據你的提示撰寫郵件內容。

我們也可以手動這一過程,例如在通信錄裡選擇收信人地址、讓系統根據你設定的主題生成郵件內容。

推特網友還使喚Personal Assistant 買窗簾……

更誇張的例子是Personal Assistant 可以自主操作ChatGPT,從單個提示開始構建網站。

你可以使喚Personal Assistant 做很多事情,包括訂披薩、在Linkedln 選找合適的工程人選等。

每一個應用的運作程序也都差不多。

通過搜索引擎找到相應頁面,瀏覽網站,與網站互動並完成基本的在線任務。 AI 能自行查找需要填寫的內容,比如出發地、目的地、收穫地址、填寫郵編、付錢完成訂單。

讓我們印象深刻的是,每進入一個環節、步驟,Personal Assistant 都會向我們做出解釋,這也是思維過程的提示,我們也可以對每個步驟點贊或者批評,幫助LLM 推理問題,提高性能。

遺憾的是,雖然官方給出的早期測試案例中,Personal Assistant 可以幫助完成發推特的活兒,但我們沒有成功,系統始終無法進入推特或者微博頁面進行進一步操作。

另外,儘管是在電腦上操作,我們仍然明顯感到每個環節的響應速度都比較慢。

這還不是最終產品。 HyperWriteAI 聯合創始人、CEO Matt Shumer表示,之所以讓大家先睹為快,目的在於讓更多人了解這類個人助理將成為每個用戶瀏覽體驗不可或缺的一部分。

就像OpenAI 聯合創始人,特斯拉前人工智能總監Andrej Karpathy 曾經預測的,「AI Agent 代表著一個瘋狂的未來。」

而就在前不久,思必馳聯合創始人、首席科學家俞凱在接受我們的專訪時也談到了這一趨勢。

俞凱認為,大模型的使用範式會經曆三個階段。

最開始是多模態專用大模型,它有可能是語言或者圖像的,但都旨在解決專用任務,雖然也會彼此組合,但各個通道之間基本上彼此獨立,不能兩兩交叉。這種使用方式早就存在。

第二階段會實現不同模態大模型之間的跨模態應用,比如通過語言對話修改化學分子的設計,或者將大模型創作的故事通過合成聲音甚至數字人講述出來。

第三個階段涉及智能體系統。大模型自身俱備通識,同時還會具備調用其他大模型的能力,調用方式可能是對話,另一個大模型也有回复的方式。 「未來一定是以這種方式組合智能體。」他認為。

GPT-4 驅動的Auto-GPT 已初見端倪。它不再是ChatGPT ,因為它可以把stable diffusion 這個文生圖大模型和語言大模型結合起來,通過十分精巧的prompt,生出很好的圖片。

「它(Auto-GPT)由單個通用人工智能大模型,變成了一個可以指揮很多其他模型的智能體。」俞凱表示,你可以認為它就是一個比較完整的模型智能體,可以通過大模型去調用各種工具,包括其他大模型。

Meta 也看到了AI Agents 的機會。

6月,扎克伯格在一次員工全體會議上宣布了一系列處於不同開發階段的技術,其中一個就是將帶來不同個性和能力的AI Agents,最初主要用於Messenger 和WhatsApp。

據Matt Shumer介紹,目前Personal Assistant 的底座是基於自主研發的模型與來自Cohere 等投資者的開源和未開源大語言模型的組合。

HyperWrite 也正在開發自己的大語言模型「Agent-1」,計劃在未來一個月內用它來驅動AI 智能體(AI Agent )。

Shumer 認為,類似Cohere 、GPT-4 通用LLM 的問題在於其設計初衷都是為了完成各種任務,從寫詩到解數學題,並不勝任處理操作軟件,所以訓練進展緩慢,成本也高。

如果說,通用大模型存儲了大量的知識,為推理留下較少的參數,那麼,「Agent-1 」側重於瀏覽網頁,目標是將模型的所有動力都用於動態推理,使他們的模型能夠處理它從未訓練過的情況,因此與其他LLM 相比要簡單得多,速度也更快且成本低、更可靠。

「Agent-1 」不依賴於對特定站點的知識,而是自己想辦法使用它。建立在這個模型基礎上的軟件也會不斷學習,而不會浪費模型參數。隨著模型不斷快速改進,它在更複雜軟件操作上的可靠性也會提高。

「我們的目標是超越人類的能力——一個可以操作任何軟件並代表用戶可靠地完成複雜目標的助手。」Matt Shumer 表示。

這裡是Personal Assistant 試用地址:

https://www.hyperwriteai.com/personal-assistant

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts