多模式人工智慧和製造業的未來

作者:Alphatu 來源:X,@Alphatu4 翻譯:善歐巴,金色財經

自2023年9月OpenAI開始在其ChatGPT平台推出新的語音和圖像功能以來,引入了更直觀的介面,讓用戶與ChatGPT進行語音對話並分享圖像,從而增強整體用戶體驗。

這種情況進一步加劇了多式聯運已經炙手可熱的流行。

事實上,語音和圖像功能的集合成為用戶在生活的各個方面提供了與ChatGPT互動的多種方式。無論是在旅途中還是在家中,用戶現在都可以利用這些多模態功能與AI 模型進行更加身臨其境的互動交互,為許多以前無法完成的產品場景增添想像力。

多模態將比通用語言模型更廣泛地應用於工業場景。

什麼是多模態人工智慧?

多模態人工智慧是指能夠理解和處理來自多種模式或來源的資訊的人工智慧系統和模型。在人工智慧的背景下,模態是一種不同的輸入形式或管道,例如文字、圖像、音訊、視訊或任何其他類型的資料。多模態人工智慧旨在整合和分析來自各種模態的信息,以實現對數據的更全面的理解。

圖形處理單元(GPU 或TPU)的廣泛使用極大地推動了深度學習AI 的發展。然而,生成式人工智慧進一步推動了這一進步,賦予它似乎永不滿足的能力,以令牌的形式吸收數據,以及代表神經元之間連接數量的參數。此外,它還利用稱為浮點運算(FLOPS) 的運算能力指標。最新的GPT-4 模型現已配備多模態功能,可混合文字和圖像,並進行了大幅增強,因其在各種自然語言處理任務上優於現有法學碩士的卓越性能而贏得讚譽。

多模態人工智慧及工業場景

然而,單模態資料的限制給現實場景尤其是工業場景帶來了挑戰,需要採用多模態人工智慧。

在資訊豐富的場景中,僅僅依靠「語言」模型是不夠的。有效的決策和資訊評估需要多種訊號。

以製造業為例,製造業存在大量的圖像、溫度、重量等數據。在這種情況下,完全依賴語言模型是不夠的,這凸顯了整合各種形式資訊的必要性。

以醫療領域為例。為什麼醫生喜歡面對面診斷,為什麼目前的人工智慧不能全面診斷疾病?解釋在於醫生會分析文字和病人的表現。在檢查特定的X 光時,醫生會參與集體討論和諮詢,因為他們提取的不僅僅是圖像或文字段落,而是解釋多模態資訊。

多模式輸入不僅限於文本,還包括聲音、紅外線資料和其他元素。這種方法有助於訓練模型進行多維度思考。

考慮一輛僅配備攝影機系統的自動駕駛汽車;在低光源條件下識別行人會遇到困難。為了全面應對這些挑戰,光達、雷達和GPS 的結合至關重要。這種整合使車輛能夠更全面地感知周圍環境,從而提高駕駛的安全性和可靠性。

這裡的基本原則強調了整合多種感官以獲得對複雜事件更深刻理解的重要性。透過多模態人工智慧的利用,文字資訊、照片、視訊和音訊可以融合,形成對給定情況的連貫而全面的描述。

人工智慧從根本解決知識問題,而網路主要解決資訊問題。知識本質上是特定領域的,缺乏網路的普遍性。製造業內領域專家和多模式人工智慧能力的協同整合有可能顯著降低成本並提高效率。

Total
0
Shares
Related Posts