撰文:Eric Schmidt
來源:麻省理工科技評測
圖片來源:由無界AI工俱生成
又是一個極端天氣的夏天,前所未有的熱浪、野火和洪水沖擊著世界各國。為了應對準確預測此類極端天氣的挑戰,半導體巨頭Nvidia 正在為整個地球構建由人工智能驅動的“數字雙胞胎”。
這個名為Earth-2 的數字孿生將使用FourCastNet 的預測。 FourCastNet 是一種人工智能模型,使用數十TB 的地球系統數據,可以比當前的預測方法更快、更準確地預測未來兩週的天氣。
通常的天氣預報系統能夠為未來一周生成大約50 個預測。而FourCastNet 可以預測數以千計的可能性,準確捕捉罕見但致命的災害風險,從而為弱勢人群提供寶貴的準備和疏散時間。
人們所期待的氣候模型革命僅僅只是一個開始。隨著人工智能的出現,科學即將變得更加令人興奮— 並且在某些方面變得難以識別。這種轉變的影響將遠遠超出實驗室的範圍;它們將影響我們所有人。
如果我們採取正確的策略,通過合理的監管和對人工智能創新用途的適當支持來解決科學最緊迫的問題,AI 可以改寫科學過程。我們可以構建這樣一個未來:由人工智能驅動的工具不僅能讓我們擺脫無腦且耗時的勞動,還能引導我們進行創造性的發明和發現,鼓勵我們實現原本需要數十年才能實現的突破。
近幾個月來,人工智能幾乎成了大型語言模型,或稱LLM 的代名詞,但在科學領域,有眾多不同的模型架構,可能會產生更大的影響。在過去的十年裡,科學領域的大部分進展都是通過專注於特定問題的小型“經典”模型取得的。這些模型已經帶來了深刻的進步。最近,開始納入跨領域知識和生成式AI 的大型深度學習模型擴大了可能的範圍。
例如,麥克馬斯特大學和麻省理工學院的科學家們已使用AI 模型來識別抗生素,以對抗被世衛組織稱為世界上對醫院患者最危險的抗生素耐藥細菌之一的病原體。此外,谷歌DeepMind 模型可以控制核聚變反應中的Plasma,使我們更接近清潔能源革命。而在醫療保健領域,美國食品和藥物管理局已經批准了523 個使用人工智能的設備,其中75% 用於放射學。
重新想像科學
從本質上講,我們在小學學到的科學過程將保持不變:進行背景研究,確定一個假設,通過實驗進行測試,分析收集的數據,並得出結論。但人工智能有可能徹底改變這些組成部分在未來的面貌。
目前,人工智能已經在改變一些科學家進行文獻審查的方式。像 PaperQA 和Elicit 這樣的工具利用LLMs 來掃描文章數據庫,並對現有的文獻— 包括引文— 做出簡潔而準確的總結。
一旦文獻綜述完成,科學家就會做出有待測試的假設。 LLMs 的核心工作是預測一個句子中的下一個詞,直至完成整個句子和段落。這種技術使LLMs 特別適合解決科學層次結構固有的規模問題,並能使它們預測物理學或生物學的下一個重大發現。
人工智能還可以將假設的搜索網擴大,並更快地縮小搜索網。因此,人工智能工具可以幫助制定更強大的假說,例如提出更有希望的新藥候選物的模型。現在模擬運行的速度比幾年前快了好幾個數量級,允許科學家在進行真實世界的實驗之前在模擬中嘗試更多的設計方案。
例如,加州理工學院的科學家們使用人工智能流體模擬模型,自動設計出了一種更好的導管,可以防止細菌逆流造成感染。這種能力將從根本上改變科學發現的增量過程,使研究人員從一開始就能設計出最佳的解決方案,而不像我們多年來在燈泡設計中的燈絲創新中所看到的那樣,通過一長串逐漸完善的設計取得進展。
進入實驗步驟,人工智能將能夠更快、更便宜、更大規模地進行實驗。例如,我們可以建立由人工智能驅動的機器,用數百根微管日夜運行,以人類無法比擬的速度創造樣品。科學家們可以使用人工智能工具來運行一千個實驗,而不是限制自己只做六個實驗。
擔心下一次撥款、出版或任期進程的科學家們將不再被束縛在成功機率最高的安全實驗上;他們將自由地追求更大膽、更跨學科的假設。例如,在評估新分子時,研究人員傾向於堅持使用與我們已經知道的分子結構相似的候選分子,但人工智能模型不必有同樣的偏見和限制。
最終,許多科學將在“自動實驗室”進行— 自動機器人平台與人工智能相結合。在這裡,我們可以將人工智能的能力從數字領域帶入物理世界。這樣的自動實驗室已經在Emerald Cloud Lab 和Artificial 等公司甚至阿貢國家實驗室出現。
最後,在分析和總結階段,自動實驗室將超越自動化,並根據產生的實驗結果,使用LLM 來解釋並推薦下一個要運行的實驗。然後,作為研究過程中的合作夥伴,人工智能實驗室助理可以訂購用品來替換早期實驗中使用的用品,並在一夜之間設置和運行下一個推薦的實驗。在實驗者還在家睡覺的時候,結果就已經準備好了。
可能性和局限性
年輕的研究人員可能會因為這個前景而緊張地在座位上瑟瑟發抖。幸運的是,在這場革命中出現的新工作可能比目前大多數實驗室工作更有創造性,且不那麼盲目。
人工智能工具可以降低新科學家的准入門檻,並為那些傳統上被排除在該領域之外的人開闢機會。隨著LLMs 能夠協助構建代碼,STEM 學生將不再需要掌握晦澀的編碼語言,向新的、非傳統的人才打開象牙塔的大門,使科學家更容易接觸到他們自己以外的領域。很快,經過專門培訓的LLMs 可能會超越提供書面工作的初稿,如資助提案,並可能被開發為與人類審查員一起提供新論文的“同行”審查。
人工智能工具有令人難以置信的潛力,但我們必須認識到人類接觸在哪些方面仍然重要,切忌好高騖遠。例如,通過自動實驗室成功融合人工智能和機器人技術並不容易。科學家在實驗室裡學到的很多隱性知識,很難傳遞給人工智能驅動的機器人技術。同樣,在我們將大量的文書工作、研究和分析工作給到它們之前,我們應該認識到當前LLMs 的局限性,尤其是幻覺。
像OpenAI 和DeepMind 這樣的公司仍然在新的突破、模型和研究論文方面處於領先地位,但目前的行業主導地位不會永遠持續。迄今為止,DeepMind 在專注於具有明確目標和指標的明確定義問題方面表現出色。它最著名的一次成功是在兩年一度的結構預測關鍵評估大賽(Critical Assessment of Structure Prediction)上,該研究團隊根據蛋白質氨基酸的順序預測了蛋白質的確切形狀。
從2006 年到2016 年,在CASP 的1 到100 分制中,最難類別的平均得分在30 到40 左右。突然,在2018 年,DeepMind 的AlphaFold 模型的得分高達58 分。兩年後,一個名為AlphaFold2 的更新版本獲得了87 分,將人類競爭對手進一步甩在身後。
得益於開源資源,我們開始看到一種模式,即產業界達到某些基準,然後學術界介入,完善模型。在DeepMind 發布AlphaFold 之後,華盛頓大學的Minkyung Baek 和David Baker 發布了RoseTTAFold,它使用DeepMind 的框架來預測蛋白質Compound體的結構,而不是AlphaFold 最初可以處理的單一蛋白質結構。更重要的是,學術界更多地被屏蔽在市場的競爭壓力之外,因此他們可以大膽地超越吸引DeepMind 的定義明確的問題和可衡量的成功。
除了達到新的高度之外,人工智能還可以通過解決科學的可複制性危機來幫助驗證我們已經知道的東西。大約70% 的科學家報告說他們無法複製另一位科學家的實驗— 這是一個令人沮喪的數字。隨著人工智能降低運行實驗的成本和工作量,在某些情況下,將更容易複製結果或得出無法複製的結論,有助於提高對科學的信任。
可複制性和信任的關鍵是透明度。在一個理想的世界裡,科學中的一切都將是開放的,從沒有付費牆的文章到開源的數據、代碼和模型。遺憾的是,由於此類模型可能帶來危險,因此將所有模型開源並不總是現實的。在許多情況下,完全透明的風險超過了信任和公平的好處。儘管如此,只要我們能夠對模型— 尤其是用途較為有限的經典人工智能模型— 保持透明,我們就應該開源。
監管的重要性
在所有這些領域,必須記住人工智能的固有限制和風險。人工智能是如此強大的工具,因為它使人類能夠用更少的時間、更少的教育、更少的設備完成更多的事情。但這些能力也使它成為了可能落入壞人手中的危險武器。羅切斯特大學的教授Andrew White 與OpenAI 簽約,參與了“紅隊”測試,可以在GPT-4 發布前暴露其風險。使用語言模型並為其提供工具,White 發現GPT-4 可以提出危險的Compound,甚至可以從化學品供應商處訂購它們。為了測試這個過程,他讓人在第二週將一種(安全的)測試Compound運到他家。 OpenAI 表示,在GPT-4 發布之前,它利用了White 的發現對其進行了調整。
即使人類的意圖完全良好,仍然可能促使人工智能產生不良結果。我們應該減少對創造終結者的擔心,正如計算機科學家Stuart Russell 所說,我們更應該擔心的是成為米達斯國王。這位國王希望自己所接觸的一切都變成黃金,正因如此,其意外的一個擁抱也殺死了自己的女兒。
我們沒有任何機制來促使人工智能改變其目標,即使它以我們無法預料的方式對其目標作出反應。一個經常被引用的假設是要求AI 盡可能多地生產回形針。該模型決心完成其目標,劫持了電網,並在回形針不斷堆積時殺死了任何試圖阻止它的人類。世界變得一片狼藉。人工智能卻拍拍屁股走人;它已經完成了它的工作。 (為了向這個著名的思想實驗致敬,許多OpenAI 的員工都隨身攜帶著品牌回形針)。
OpenAI 已經設法實施了一系列令人印象深刻的保障措施,但只要GPT-4 被安置在OpenAI 的服務器上,這些措施就會一直存在。當有人設法複製該模型並將其放在自己的服務器上時,這一天可能很快就會到來。這樣的前沿模型需要得到保護,以防止竊賊拆除其原始開發者精心添加的AI 安全護欄。
為了解決人工智能有意和無意的不良使用,我們需要對科技巨頭和開源模型進行明智的、知情的監管,這不會阻止我們以對科學有益的方式使用人工智能。儘管科技公司在人工智能安全方面取得了長足進步,但政府監管機構目前在製定適當的法律方面準備不足,應該採取更多措施來了解最新發展。
在監管之外,政府— 與慈善機構一起— 可以支持社會回報率高但經濟回報率或學術激勵少的科學項目。有幾個領域尤其緊迫,包括氣候變化、生物安全和大流行病的防範。正是在這些領域,我們最需要人工智能模擬和自動實驗室提供的速度和規模。
在安全考慮允許的範圍內,政府還可以幫助開發大型、高質量的數據集,例如AlphaFold 所依賴的數據集。開放數據集是公共產品:它們使許多研究人員受益,但研究人員幾乎沒有動力自己創建它們。政府和慈善組織可以與大學和公司合作,確定科學中的重大挑戰,這些挑戰將受益於強大的數據庫的使用。
例如,化學有一種統一該領域的語言,這似乎有助於人工智能模型輕鬆分析。但是,沒有人能夠正確聚合存儲在數十個數據庫中的分子特性數據,這使我們無法獲得對該領域的見解,而如果我們只有一個來源,人工智能模型就可以實現這一領域的見解。與此同時,生物學缺乏作為物理學或化學基礎的已知和可計算的數據,像內在無序蛋白質這樣的子領域對我們來說仍然是神秘的。因此,它將需要更加協調一致的努力來理解— 甚至是記錄數據,以建立一個綜合的數據庫。
在科學領域廣泛採用人工智能的道路是漫長的,我們必須做好很多工作,從建立正確的數據庫到實施正確的法規,減少人工智能算法的偏見,再到確保跨境計算資源的平等訪問。
儘管如此,這是一個非常樂觀的時刻。以前的科學範式轉變,如科學過程或大數據的出現,都是內向型的,可以使科學更加精準有條理。與此同時,人工智能是擴張性的,使我們能夠以新穎的方式組合信息,並將科學的創造力和進步推到新的高度。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載