M

Magma 8B

由microsoft開發
Magma是一個多模態AI智能體基礎模型,能夠處理圖像和文本輸入並生成文本輸出,具備虛擬與現實環境中的複雜交互能力。
下載量 4,526
發布時間 : 2/23/2025

模型概述

Magma是面向多模態AI智能體的基礎模型,通過引入標記集合和標記軌跡技術,結合大量未標記視頻數據學習時空定位與規劃能力,適用於UI導航、機器人操作等多種智能任務。

模型特點

數字與物理世界交互
首個能同時處理虛擬與現實環境中複雜交互的多模態AI智能體模型
多功能統一架構
單一模型同時具備視覺理解、語言生成和動作規劃能力
時空定位與規劃
通過標記軌跡技術從視頻數據學習時空定位能力
可擴展預訓練
能從海量未標記視頻中擴展學習,具備強大泛化能力

模型能力

圖像理解
視頻理解
文本生成
UI導航
機器人操作控制
遊戲控制
空間推理
多模態交互

使用案例

智能設備交互
手機UI導航
根據語音指令自動操作手機界面
演示中成功完成天氣查詢和飛行模式設置
機器人控制
物品抓取
根據視覺輸入控制機器人抓取特定物品
演示中成功抓取熱狗香腸和蘑菇
遊戲AI
遊戲控制
通過視覺輸入理解遊戲狀態並生成控制指令
在收集綠色方塊任務中表現優於LLaVA和GPT4o-mini
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase