NVIDIA於2025年推出了基於VLM的多模式信息檢索系統,利用NIM微服務增強跨文本和圖像的數據處理。該系統能以凝聚方式處理多種數據類型,簡化信息檢索。 NIM微服務支持跨語言和計算機視覺的AI基礎模型,結合Langgraph及大型語言模型,能夠處理複雜查詢。相比傳統系統,VLM NIM可提高上下文理解,生成結構化輸出以確保一致性。此外,NVIDIA通過文檔的批次管理提升可擴展性。未來將開發更小、更高效的模型,降低成本,推動數據處理和檢索的進步。
Iris Coleman 2025年2月26日10:55
NVIDIA引入了基於VLM的多模式信息檢索系統利用NIM微服務,從而增強了跨文本和圖像等不同方式的數據處理。
人工智能的不斷發展的景觀繼續推動數據處理和檢索的界限。根據該公司的官方博客的數據,NVIDIA揭開了一種新的多模式信息檢索方法,利用其NIM微服務來解決處理各種數據模式的複雜性。
多模式AI模型:新的邊界
多模式AI模型旨在以凝聚的方式處理各種數據類型,包括文本,圖像,表等。 NVIDIA的視覺語言模型(VLM)的系統旨在通過將這些數據類型集成到統一的框架中來簡化準確信息的檢索。這種方法顯著增強了在不同格式上產生全面和相干產出的能力。
與NVIDIA NIM一起部署
NVIDIA NIM微服務促進了跨語言,計算機視覺和其他領域的AI基礎模型的部署。這些服務旨在部署在NVIDIA加速基礎設施上,為行業標準的API與流行的AI開發框架(如Langchain和LlamainDex)提供無縫集成。該基礎架構支持基於視覺語言模型的系統的部署,能夠回答涉及多種數據類型的複雜查詢。
集成langgraph和llms
該系統採用Langgraph,一種最新的框架,以及Llama-3.2-90B-Vision-vision-Instruct VLM和Mistral-Small-Small-24B-24B-Inscruct-logansing大語言模型(LLM)。這種組合允許對文本,圖像和表進行處理和理解,從而使系統能夠有效地處理複雜的查詢。
比傳統系統的優勢
VLM NIM微服務比傳統信息檢索系統具有多個優點。它通過處理冗長而復雜的視覺文檔而不會失去連貫性來增強上下文理解。此外,Langchain的工具稱呼功能的集成使系統可以動態選擇和使用外部工具,從而改善數據提取和解釋精度。
企業應用程序的結構化輸出
該系統對企業應用程序特別有益,生成結構化的輸出,以確保響應的一致性和可靠性。該結構化輸出對於與其他系統自動化和集成至關重要,從而減少了來自非結構化數據可能引起的歧義。
挑戰和解決方案
隨著數據量的增加,與可伸縮性和計算成本有關的挑戰會出現。 NVIDIA通過層次文檔的重新管理方法解決了這些挑戰,該方法通過將文檔摘要分為可管理的批次來優化處理。此方法可確保考慮所有文檔,而不會超過模型的能力,從而提高可擴展性和效率。
前景
儘管當前系統涉及大量的計算資源,但預計較小,更高效的模型的開發。這些進步有望以降低的成本提供相似的性能水平,從而使系統更容易訪問和成本效益。
NVIDIA的多模式信息檢索方法代表了處理複雜數據環境的重要一步。通過利用高級AI模型和魯棒的基礎架構,NVIDIA正在為高效有效的數據處理和檢索系統設定新的標準。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載!