來源:SenseAI 深思圈
「大型企業為防止AI 出現錯誤進行檢測需要投入極大的成本,同時現階段缺乏標準的LLM 測試框架。因此對LLM 的評估不可擴展且效果欠佳。這也導致企業在部署AI 產品時表現出了謹慎的態度。
Patronus AI 希望透過打造LLM 的自動化評估和安全平台,讓企業安全地部署AI 產品,進而推動Gen-AI 的大範圍採用。 “
Sense 思考
我們嘗試基於文章內容,提出更多發散性的推演和深思,歡迎交易所。
▪ 企業級大模型應用痛點:transformer 自迴歸式對下文的預測實質是機率模型,對產生內容不確定性的評估是模型能力驗證的關鍵。同時,學術型指標評估無法適應企業級領域應用,需要更產品化的多模型自動評估平台。
▪ 如何在生產內容中平衡準確性與不確定性,將LLM 能力長板放大到業務需求場景,是模型測評平台以及企業級Gen-AI 應用的藝術。
這篇正文共2115 字,仔細閱讀需約5 分鐘
使用者正以前所未有的速度採用生成式AI。 ChatGPT 是有史以來成長最快的消費性產品:在發布的前兩個月就吸引了1 億多用戶。今年,AI 一直是人們關注的焦點。但同時,企業在面對快速部署AI 產品時展現了謹慎的態度。他們擔心大語言模型可能造成的錯誤。不幸的是,現階段評估和檢查語言模型的工作難以擴展且效率低下。 Patronus 致力於改變這一現狀,他們的使命是提高企業對生成式AI 的信心。
Patronus AI 的創始背景
Patronus 兩位創辦人Rebecca 和Anand 認識將近10 年。在芝加哥大學一起學習電腦科學後,Rebecca 加入Meta AI(FAIR)負責NLP 和ALGN 相關研究,而Anand 在Meta Reality Labs 開發了早期的因果推斷和實驗基礎。在Meta,兩人親身經歷了評估和解釋機器學習輸出的困難——Rebecca 從研究角度,Anand 從應用角度。
當OpenAI CTO 米拉·穆拉蒂去年11 月在Twitter 上宣布ChatGPT 發佈時,Anand 在5 分鐘內就將訊息轉發給了Rebecca。他們意識到這是一個轉型時刻,企業肯定會快速地將語言模型應用到各種場景中。因此,當Anand 聽說他哥哥就職的投資銀行Piper Sandler 禁止內部訪問OpenAI 時,他感到非常驚訝。在未來的幾個月裡,他們多次聽到傳統企業正非常謹慎地推進這項技術。
他們意識到,儘管NLP 技術取得了重大進步,但離真正的企業應用仍有很大差距。所有人都認同生成式AI 非常有用,但沒有人知道如何以正確的方式使用它。他們認識到,在未來幾年,AI 評估和安全將成為最重要的問題。
團隊與融資狀況
Patronus 在23 年9 月14 日宣布獲得了來自Lightspeed Venture Partners 的300 萬美元種子輪融資,Factorial Capital、Replit CEO Amjad Masad、Gokul Rajaram、Michael Callahan、Prasanna Gopalakrishnan、Suja Chandrasekaran 等也參與了投資。這些投資者在投資和營運企業安全和AI 領域的標竿公司方面擁有豐富的經驗。
Patronus 的創始團隊來自頂尖的ML(機器學習)應用和研究背景,包括Facebook AI 研究院(FAIR)、Airbnb、Meta Reality Labs 和量化機構。他們在頂級AI 會議上發表過NLP 研究論文(NeurIPS、EMNLP、ACL),設計並推出了Airbnb 的第一個會話式AI 助手,在Meta Reality Labs 開創了因果推斷,退出了馬克·庫班支持的量化對沖基金,在快速成長新創公司退出了0→1 產品。
Patronus 的顧問是Contextual AI 的CEO 和史丹佛大學的兼任教授Douwe Kiela,他也是HuggingFace 的前研究主管。 Douwe 在NLP 領域做出了開創性的研究,特別是在評估、基準測試和RAG 方面。
Patronus AI 要解決的問題
目前的大語言模型評估不可擴展且效果欠佳,原因如下:
手動評估速度慢、成本高。大型企業需要花費數百萬美元聘請成千上萬的內部測試人員和外部顧問,以手動檢查AI 中的錯誤。要部署AI 產品的工程師需要花費數週時間手動建立測試集和檢查AI 輸出。
大語言模型的不確定性本質使預測故障變得困難。大語言模型是機率性系統。由於其輸入範圍不受限制(在上下文長度限制內),提供了廣泛的攻擊面。因此,發生故障的原因將非常複雜。
目前還沒有標準的大語言模型測試框架。軟體測試已經深度整合到了傳統工程工作流程中,有單元測試框架、大型質檢團隊和發布週期等,但企業還沒有為大語言模型開發出類似的流程。連續、可擴展的評估、識別並記錄大語言模型錯誤以及效能基準測試對於產品化使用大語言模型至關重要。
學術基準無法反映真實世界的情況。企業目前在學術基準(如HELM、GLUE、SuperGLUE 等)上測試大語言模型,但這些基準無法反映真實的使用情境。學術基準趨於飽和,並存在訓練資料外洩問題。
AI 失敗的長尾現象非常嚴重,最後的20%極具挑戰性。對抗性攻擊已經表明,大語言模型的安全問題遠未解決。即使通用預訓練語言模型展示了強大的基礎能力,仍有大量未知的失敗情況。 Patronus 在對抗模型評估和魯棒性方面做了大量開創性的研究,但這只是個開始。
Patronus AI 的使命
Patronus AI 的使命是提高企業對生成式AI 的信心。
Patronus AI 是業界首個針對大語言模式的自動化評估和安全平台。客戶使用Patronus AI 大規模偵測大語言模型錯誤,從而安全地部署AI 產品。
該平台自動執行:
評分:評估實際情境中的模型效能和關鍵指標,如hallucination 和安全性。
生成測試:自動產生大規模對抗測試集。
基準測試:比較模型,幫助客戶確定特定用例的最佳模型。
Patronus 希望頻繁評估以適應不斷更新的模型、數據和使用者需求。最終目標是獲得一個可信度標識。沒有公司希望看到他們的用戶對意外的失敗感到不滿,甚至出現負面新聞並引發監管問題。
此外,Patronus 正在尋找值得信賴的第三方評估機構,使用者需要一個無偏見的獨立視角。 Patronus 希望大家將其視為AI 界的穆迪(Moody’s)。
目前Patronus 的合作夥伴包括領先的AI 公司Cohere、Nomic 和Naologic。此外,幾家金融服務公司等知名的傳統產業公司也正在與Patronus AI 洽談進行試點。
Do not go gentle into that good night,
Rage,
rage against the dying of the light.
—— Dylan Thomas (1954)
參考資料
https://www.patronus.ai/blog/patronus-launch
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載