根據VentureBeat 報導,本週二,GoogleDeepMind 披露了其人工智慧研究的一項重大進展,提出了一個新的自回歸模型,旨在提高對長視訊輸入的理解能力。這個被命名為「Mirasol3B」的新模型展示了一種突破性的多模態學習方法,以更全面、更有效率的方式處理音訊、視訊和文字資料。谷歌研究院的軟體工程師Isaac Noble 和GoogleDeepMind 的研究科學家Anelia Angelova 表示,建構多模態模型的挑戰在於模態的異質性。他們解釋說:「有些模態可能在時間上很同步(如音訊、視訊),但與文字不一致。」「此外,視訊和音訊訊號的資料量比文字大得多,因此在多模態模型中將它們結合在一起時,視訊和音訊往往無法被完全利用,需要進行不成比例的壓縮。對於較長的視訊輸入而言,這一問題更加嚴重。」針對這種複雜性,Google的Mirasol3 B 模型將多模態建模分解為單獨的重點自回歸模型,根據模態的特性處理輸入。