# マルチモーダル視覚言語モデル

Internvl3 8B Bf16
その他
InternVL3-8B-bf16 はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers その他
I
mlx-community
96
1
Llama 4 Scout 17B 16E 8bit
その他
これはMetaのLlama-4-Scout-17B-16Eモデルから変換されたMLX形式のモデルで、多言語と視覚言語タスクをサポートします。
テキスト生成画像 Transformers 複数言語対応
L
mlx-community
252
0
Qwen2.5vl 3B VLM R1 REC 500steps
Qwen2.5-VL-3B-Instructを基にした視覚言語モデルで、VLM-R1強化学習によって強化され、指示表現理解タスクに特化しています。
テキスト生成画像 Safetensors 英語
Q
omlab
976
22
Eagle2 9B
Eagle2は高性能な視覚言語モデルシリーズで、データ戦略とトレーニング手法の最適化を通じてモデル性能を向上させることに焦点を当てています。Eagle2-9Bはこのシリーズの大型モデルで、性能と推論速度の間で良好なバランスを実現しています。
テキスト生成画像 Transformers その他
E
KnutJaegersberg
15
4
Eagle2 9B
Eagle2-9BはNVIDIAが発表した最新の視覚言語モデル(VLM)で、性能と推論速度の完璧なバランスを実現しています。Qwen2.5-7B-Instruct言語モデルとSiglip+ConvNext視覚モデルを基盤として構築され、多言語・マルチモーダルタスクをサポートします。
画像生成テキスト Transformers その他
E
nvidia
944
52
Biotrove CLIP
MIT
BioTrove-CLIPは、CLIPスタイルの生物多様性視覚言語基盤モデルで、4000万枚の画像と3万3000種の植物・動物種を含むデータセットでトレーニングされています。
テキスト生成画像 英語
B
BGLab
48
2
Qwen For Jawi V1
Qwen2-VL-2B-Instructをファインチューニングしたジャウィ文字OCRモデル、歴史的マレー語テキストの識別に特化
画像生成テキスト Transformers
Q
culturalheritagenus
155
1
Vitamin XL 256px
MIT
ViTamin-XL-256pxはViTaminアーキテクチャに基づく視覚言語モデルで、効率的な視覚特徴抽出とマルチモーダルタスク向けに設計されており、高解像度画像処理をサポートします。
テキスト生成画像 Transformers
V
jienengchen
655
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase