來源:鈦媒體,作者|林志佳
圖片來源:由無界AI工俱生成
當ChatGPT引發中美科技行業狂熱之後,它的締造者美國OpenAI公司如今又在人工智能(AI)可解釋性研究領域獲得重大突破。
鈦媒體App 5月10日消息,OpenAI今晨發布一個關於GPT-4語言模型解析神經元的對齊性研究成果,利用自研基於GPT-4技術的開源工具,來嘗試計算其他架構、更簡單語言模型上神經元的行為並對其進行評分,而且可以將其應用於另一種語言模型中的神經元——本次選擇4年前發布、包含307200個神經元的大模型GPT-2為實驗樣本,公開了這些GPT-2神經元解釋和分數的數據集。
“我們的目標是使用Al 來幫助我們理解Al”,OpenAI 的這一研究對AI 行業意味著,利用GPT-4和機器學習技術就能定義、測量AI 可解釋性,未來在神經元層將會產生“大模型比人腦更會思考”技術趨勢。
OpenAI 聯合創始人Greg Brockman則表示:我們邁出了使用AI 進行自動化對齊研究的重要一步。
與此同時,OpenAI 對此依然是一如既往的謙虛,文章稱目前GPT-4生成的可解釋實驗還不完美,當比GPT-2更大模型時解釋表現效果很差。 OpenAI可拓展對齊團隊的Jeff Wu直言,本次研究中大多數解釋的得分很低,GPT-4或無法解釋實際神經元那麼多的行為,未來仍有技術改進空間。
據悉,自去年11月底至今,人工智能(AI)聊天機器人大模型ChatGPT風靡全球。根據Similarweb公佈的最新數據,截至今年4月,ChatGPT平台訪問量達到17.6億次,比3月份增長了12.6%,同時已達到谷歌的2%。
ChatGPT背後的大型語言模型(LLM),是基於大量文本數據訓練、包含數千億(或更多)參數的語言模型。在大數據時代,這類AI 機器學習模型可以在提升產品銷售、輔助人類決策過程中能夠起到很大的作用,但是計算機通常不會解釋它們的預測結果,而語言模型想要變得更強大,部署更廣泛,就需要研究可解釋性(interpretability),因為人類對模型內部工作原理的理解仍然非常有限,例如可能很難從中檢測到有偏見、欺騙性內容輸出。
站在OpenAI 的角度看,大模型未來將和人腦一樣擁有“神經元”(neurons),這些神經元會觀察文本中的特定規律,進而影響到模型本身生產的文本。所以可解釋性就是將模型能用通俗易懂的語言進行表達,把模型的預測過程轉化成具備邏輯關係的規則的能力,從而通過查看模型內部來發現更多信息。
例如,如果有一個針對“漫威超級英雄”的神經元,當用戶向模型提問“哪個超級英雄的能力最強”時,這個神經元就會提高模型在回答中說出漫威英雄的概率,或者是弄清楚為什麼人類神經元,可以決定進行某些搜索引擎查詢或訪問特定網站,即逐步轉化一種有數據可解釋性的“無監督學習”模式。
OpenAI這次使用GPT-4來解決可解釋性的問題,就是希望能夠使用自動化的方式,讓機器提高AI 數據準確性,文章稱這是其對齊研究的第三支柱的一部分。據悉,“第三支柱”是公司2022年發布的《我們做對齊研究的方法》,具體對齊研究將由三大支柱支撐:利用人工反饋訓練AI;訓練AI 系統協助人類評估;訓練AI 系統進行對齊研究。
具體到本次研究成果上,OpenAI 開發了一套包含自動化工具和測試方法的評估流程:
首先,研究人員讓GPT-2運行文本序列,等待某個特定神經元被頻繁“激活”; 然後讓GPT-4 針對一段文本生成解釋,例如通過GPT-4接收到文本和激活情況判斷漫威是否與電影、角色和娛樂有關; 隨後用GPT-4 模擬GPT-2 的神經元接下來會做什麼,預測行為; 最後評估打分,對比GPT-4模擬神經元和GPT-2真實神經元的結果的準確度,在下圖這個例子中,GPT-4 的得分為0.34。
使用上述評分方法,OpenAI 開始衡量他們的技術對網絡不同部分的效果,並嘗試針對目前解釋不清楚的部分改進技術。 OpenAI 表示,他們正在將GPT-4編寫的對GPT-2中的所有307,200個神經元的解釋的數據集和可視化工具開源,同時還提供了OpenAI API公開可用的模型進行解釋和評分的代碼,從而希望學術界能開發出新的技術來提升GPT模型解釋分數。
OpenAI還發現,有超過1000 個神經元的解釋得分至少為0.8分,這意味著GPT-4模型可以解釋大部分人類神經元,同時目前GPT理解的概念似乎和人類不太一樣。該團隊稱,希望隨著技術和研究方法的改進,進一步提高AI模型可解釋性能力:如通過迭代解釋,可以讓GPT-4想出可能的反例在根據激活情況修改解釋;使用更大的模型作出解釋;以及調整已解釋模型(explained model)結構等,用不同的激活函數訓練模型有助於提高解釋評分。
對於本研究局限性,OpenAI表示,目前GPT-4生成的解釋還不完美,尤其要解釋比GPT-2更大的模型時,表現效果很差;神經元復雜行為無法用簡短的自然語言描述;OpenAI 解釋了神經元的這種行為,卻沒有試圖解釋產生這種行為的機制;而且整個過程算力消耗極大等。 OpenAI 希望在未來的工作中可以解決上述這些問題。
最終,OpenAI希望使用模型來形成、測試和迭代完全一般的假設,從而比肩人類大腦的想法和行為,以及將其大模型解釋為一種在部署前後檢測對齊和安全問題的方法。然而在這之前,OpenAI還有很長的路要走。
“我們希望這將開闢一條有前途的途徑。”Jeff Wu表示,這一技術可以讓其他人可以在此基礎上構建並做出貢獻的自動化方案,從而解決AI 模型可解釋性問題,很好地解釋這些模型行為,比如AI 如何影響人類大腦中的神經元等。 (本文首發鈦媒體App,作者|林志佳)
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載