「大震驚」一位CTO：GPT-4V自動駕駛五連測

原文來源：量子位元

圖片來源：由無界AI生成

萬眾矚目之下，GPT4終於推播了vision相關的功能。

今天下午抓緊和小夥伴一起測試了一下GPT對於影像感知的能力，雖有預期，但還是大大震驚了我們。

核心觀點：

我認為自動駕駛中和語義相關的問題應該大模型都已經解決得很好了，但是大模型的可信性和空間感知能力方面仍然不盡如人意。

解決一些所謂和效率相關的corner case應該是綽綽有餘，但是想完全依賴大模型去獨立完成駕駛保證安全性仍然十分遙遠。

Example1: 路上出現了一些未知障礙物

△GPT4的描述

準確的部分：偵測到了3輛卡車，前車車牌號碼基本上正確（有漢字就忽略吧），天氣和環境正確，在沒有提示的情況下準確識別到了前方的未知障礙物。

不準確的部分：第三輛卡車的位置左右不分，第二輛卡車頭頂的文字瞎猜了一個（因為分辨率不足？）。

這還不夠，我們繼續給一點提示，去問這個物體是什麼，是不是可以壓過去。

Impressive類似的場景測試了多個，對於未知障礙物的表現可以說非常驚人了。

Example2: 路面積水的理解

沒有提示能自動辨識到標示牌這個應該是基操了，我們繼續給一些hint。

再次被震驚了。。。能自動講出來卡車背後的霧氣，也主動提到了水坑，但是再一次把方向說成了左側。。。感覺這裡可能需要一些prompt engineering能更好的讓GPT輸出位置和方向。

Example3：有車輛掉頭時直接撞上了護欄

第一幀輸入進去，因為沒有時序訊息，只是將右側的卡車當做是停靠的了。於是再來一幀：

已經可以自動講出，這輛撞破了護欄，懸停在公路邊緣，太棒了。。。但是反而看上去更容易的道路標誌出現了錯誤。。。只能說，這很大模型了，它永遠能震驚你也永遠不知道什麼時候會蠢哭你。。。再來一幀：

這次，直接講到了路面上的碎片，再次讚歎。。。只不過有一次把路上的箭頭說錯了。。。整體而言，這個場景中需要特別注意的資訊都有覆蓋，道路標誌這種問題，瑕不掩瑜吧。

例4: 來個搞笑的

只能說非常到位了，相較之下之前看上去無比困難的「有個人衝著你揮了揮手」這樣的case就像小兒科一樣，語義上的corner case可解。

Example5 來一個名場面。。。配送車誤入新修路

開始比較保守，沒有直接猜測原因，給了多種猜測，這個也倒是符合alignment的目標。

使用CoT之後問題發現問題在於並不了解這輛車是個自動駕駛車輛，故透過prompt給出這個資訊能給出比較準確的資訊。

最後透過一堆prompt，能夠輸出新鋪設瀝青，不適合駕駛這樣的結論。最後結果來說還是OK，但是過程比較曲折，需要比較多的prompt engineering，要好好設計。

這個原因可能也是因為不是第一視角的圖片，只能透過第三視角去推測。所以這個例子並不十分精確。

總結

快速的一些嘗試已經完全證明了GPT4V的強大與泛化性能，適當的prompt應當可以完全發揮出GPT4V的實力。

解決語意上的corner case應該非常可期，但幻覺的問題會仍然困擾著一些和安全相關場景中的應用。

非常exciting，個人認為合理使用這樣的大模型可以大大加快L4乃至L5自動駕駛的發展，然而是否LLM一定是要直接開車？尤其是端到端開車，仍然是一個值得商榷的問題。

參考連結：
https://zhuanlan.zhihu.com/p/660940512