# マルチモーダルエージェント

GUI Actor 7B Qwen2 VL
MIT
GUI-Actor-7BはQwen2-VL-7B-Instructをベースに開発されたビジュアル言語モデルで、グラフィカルユーザーインターフェイス(GUI)エージェントタスクに特化し、座標なしのビジュアル接地ソリューションを提供します。
マルチモーダル融合 Transformers
G
microsoft
207
14
UI TARS 1.5 7B GGUF
Apache-2.0
UI-TARS-1.5-7Bは先進技術に基づくマルチモーダルモデルで、画像とテキストの変換などのタスクで優れた性能を発揮します。革新的な量子化方法を採用し、極低ビットレートでも高い精度を維持することができます。
テキスト生成画像 Transformers
U
Mungert
2,526
3
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VLはQwenファミリー最新のビジュアル言語モデルで、強力な視覚理解とマルチモーダル処理能力を備え、画像・動画分析と構造化出力をサポートします。
画像生成テキスト 英語
Q
unsloth
8,427
4
Qwen3 30B A3B GGUF
Apache-2.0
Qwenによって開発された大規模言語モデルで、131,072トークンの文脈長をサポートし、創造的執筆、ロールプレイ、多輪対話に優れています。
大規模言語モデル
Q
lmstudio-community
77.06k
21
Gemma 3 R1984 4B
Gemma3-R1984-4BはGoogleのGemma-3-4Bモデルを基に構築された強力なエージェントAIプラットフォームで、マルチモーダルファイル処理と深層研究能力をサポートします。
画像生成テキスト Transformers 複数言語対応
G
ginipick
44
4
Videomind 2B FT QVHighlights
Bsd-3-clause
VideoMindはマルチモーダルエージェントフレームワークで、人間のような認知プロセスを模倣することでビデオ推論能力を強化します。
ビデオ生成テキスト Safetensors
V
yeliudev
20
0
Videomind 7B
Bsd-3-clause
VideoMindはマルチモーダルエージェントフレームワークで、人間の思考プロセスを模倣することで動画推論能力を強化します。
ビデオ生成テキスト
V
yeliudev
90
2
Magma 8B
MIT
MagmaはマルチモーダルAIエージェントの基盤モデルで、画像とテキスト入力を処理しテキスト出力を生成可能。仮想と現実環境における複雑なインタラクション能力を備えています。
画像生成テキスト Transformers
M
microsoft
4,526
363
Omniparser V2.0
MIT
OmniParserは汎用スクリーン解析ツールで、UIスクリーンショットを解釈/構造化フォーマットに変換し、LLMベースのUIエージェントの性能を向上させます。
画像生成テキスト Transformers
O
microsoft
6,729
1,185
Qwen2.5 VL 3B Instruct 4bit
Qwen2.5-VLはQwenファミリーの最新ビジョン・ランゲージモデルで、強化された視覚理解、エージェント機能、長尺動画処理能力を備えています。
テキスト生成画像 Transformers 英語
Q
jarvisvasu
174
3
Fuyu 8b
Fuyu-8BはAdept AIが開発したマルチモーダルなテキスト-画像変換器で、デジタルエージェント向けに設計されており、任意の画像解像度をサポートし、迅速な応答とシンプルなアーキテクチャが特徴です。
画像生成テキスト Transformers
F
adept
14.22k
1,006
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase