M

Magma 8B

microsoftによって開発
MagmaはマルチモーダルAIエージェントの基盤モデルで、画像とテキスト入力を処理しテキスト出力を生成可能。仮想と現実環境における複雑なインタラクション能力を備えています。
ダウンロード数 4,526
リリース時間 : 2/23/2025

モデル概要

MagmaはマルチモーダルAIエージェント向けの基盤モデルで、トークン集合とトークントラジェクトリ技術を導入し、大量の未ラベル動画データから時空間定位と計画能力を学習。UIナビゲーションやロボット操作など多様な知的タスクに適用可能です。

モデル特徴

デジタルと物理世界のインタラクション
仮想と現実環境の複雑なインタラクションを同時に処理できる初のマルチモーダルAIエージェントモデル
多機能統合アーキテクチャ
単一モデルで視覚理解、言語生成、動作計画能力を同時に備える
時空間定位と計画
トークントラジェクトリ技術により動画データから時空間定位能力を学習
拡張可能な事前学習
大量の未ラベル動画から拡張学習可能で、強力な汎化能力を有する

モデル能力

画像理解
動画理解
テキスト生成
UIナビゲーション
ロボット操作制御
ゲーム制御
空間推論
マルチモーダルインタラクション

使用事例

スマートデバイスインタラクション
スマホUIナビゲーション
音声指示に基づきスマートフォン画面を自動操作
デモでは天気検索と機内モード設定を正常に完了
ロボット制御
物品把持
視覚入力に基づきロボットが特定物品を把持
デモではホットドッグソーセージとキノコの把持に成功
ゲームAI
ゲーム制御
視覚入力からゲーム状態を理解し制御指令を生成
緑色立方体収集タスクでLLaVAとGPT4o-miniを上回る性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase