# 視覚言語動作モデル

Jarvisvla Qwen2 VL 7B
MIT
『マインクラフト』専用に設計された視覚-言語-動作モデルで、人間の言語コマンドに基づいてゲーム内の数千のスキルを実行可能
画像生成テキスト Transformers 英語
J
CraftJarvis
163
8
Spatialvla 4b 224 Sft Fractal
MIT
SpatialVLAは視覚-言語-動作モデルで、fractalデータセットでファインチューニングされ、主にロボット制御タスクに使用されます。
テキスト生成画像 Transformers 英語
S
IPEC-COMMUNITY
375
0
Spatialvla 4b 224 Sft Bridge
MIT
このモデルは、bridgeデータセットで微調整された視覚-言語-動作モデルで、Simpler-envベンチマークテスト専用に設計されています。
テキスト生成画像 Transformers 英語
S
IPEC-COMMUNITY
1,066
0
Openvla 7b Oft Finetuned Libero Goal
MIT
OpenVLA-OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により基礎となるOpenVLAモデルの性能と速度を大幅に向上させています。
マルチモーダル融合 Transformers
O
moojink
579
1
Cogact Small
MIT
CogACTは、視覚言語モデル(VLM)に基づいて派生した新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作向けに設計されています。
マルチモーダル融合 Transformers 英語
C
CogACT
405
4
Cogact Large
MIT
CogACTは視覚言語モデル(VLM)に基づく新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作のために設計されています。
マルチモーダル融合 Transformers 英語
C
CogACT
122
3
Cogact Base
MIT
CogACTは、ロボット操作タスクのための視覚言語モデルと専用動作モジュールを組み合わせた新しい視覚言語動作(VLA)アーキテクチャです。
マルチモーダル融合 Transformers 英語
C
CogACT
6,589
12
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase