Qwen2.5 VL 7B Instruct Gemlite Ao A8w8
Apache-2.0
これはA8W8量子化されたマルチモーダル大規模言語モデルで、Qwen2.5-VL-7B-Instructに基づいており、視覚と言語のタスクをサポートします。
画像生成テキスト
Transformers

Q
mobiuslabsgmbh
161
1
Llava 1.5 13b Hf I1 GGUF
このプロジェクトは、llava-1.5-13b-hfモデルの重み/行列量子化バージョンを提供し、さまざまな量子化タイプが選択可能で、異なるシナリオでの使用ニーズに対応します。
テキスト生成画像
Transformers 英語

L
mradermacher
332
1
Spaceqwen2.5 VL 3B Instruct I1 GGUF
Apache-2.0
SpaceQwen2.5-VL-3B-Instructは3Bパラメータの視覚言語モデルで、空間推論とマルチモーダルタスクに特化しています。
テキスト生成画像 英語
S
mradermacher
459
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。
テキスト生成画像
Safetensors 英語
V
omlab
892
11
Eagle2 1B
イーグル2は高性能な視覚言語モデルファミリーで、データ戦略とトレーニング手法の透明性に重点を置き、競争力のある視覚言語モデルのオープンソースコミュニティ開発を推進することを目的としています。
画像生成テキスト
Transformers その他

E
nvidia
1,791
23
Eagle2 2B
Eagle2はNVIDIAが開発した高性能視覚言語モデルファミリーで、データ戦略とトレーニング手法を通じてオープンソースの視覚言語モデルの性能を向上させることに焦点を当てています。Eagle2-2Bはこのシリーズの軽量モデルで、強力な性能を維持しながら優れた効率性と速度を実現しています。
テキスト生成画像
Transformers その他

E
nvidia
667
21
Qwen2 VL 7B GGUF
Apache-2.0
Qwen2-VL-7Bは視覚言語モデルで、複数の量子化バージョンのGGUF形式のモデルファイルを提供し、llama.cppでの使用に適しています。
テキスト生成画像
Transformers 英語

Q
tensorblock
108
1
Minivla Libero90 Prismatic
MIT
MiniVLAは10億パラメータ規模の視覚言語モデルで、プリズム視覚言語モデルプロジェクトのコードベースと互換性があり、ロボット技術やマルチモーダルタスクに適しています。
画像生成テキスト
Transformers 英語

M
Stanford-ILIAD
127
0
Paligemma2 28b Mix 224
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を統合し、多言語画像テキストインタラクションタスクをサポートします。
画像生成テキスト
Transformers

P
google
2,050
4
Paligemma2 28b Mix 448
PaliGemma 2はGemma 2ベースの視覚言語モデルで、画像+テキスト入力をサポートし、テキスト応答を出力します。様々な視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキストの入力からテキスト出力を生成可能
画像生成テキスト
Transformers

P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキスト入力をサポートしてテキスト出力を生成します。
画像生成テキスト
Transformers

P
google
282
14
Paligemma2 3b Pt 896
PaliGemma 2はマルチモーダル視覚言語モデルで、画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語をサポートし、さまざまな視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
2,536
22
Paligemma2 3b Pt 448
PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
3,412
45
Paligemma2 3b Pt 224
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。
画像生成テキスト
Transformers

P
google
30.51k
148
Paligemma2 10b Mix 224
PaliGemma 2はGemma 2をベースにした視覚言語モデルで、画像とテキストの入力をサポートし、テキスト出力を生成します。様々な視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
701
7
Paligemma2 3b Mix 448
PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを生成する出力を行い、さまざまな視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
20.55k
44
Paligemma2 3b Ft Docci 448
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。
画像生成テキスト
Transformers

P
google
8,765
12
Llama 3.1 8B Dragonfly V2
トンボはLlama 3.1をベースに命令微調整で訓練されたマルチモーダル視覚言語モデルで、画像とテキストの統合的理解と生成をサポートします
画像生成テキスト 英語
L
togethercomputer
113
1
Openvla V01 7b
MIT
OpenVLA v0.1 7Bはオープンソースの視覚-言語-動作モデルで、Open X-Embodimentデータセットでトレーニングされ、さまざまなロボット制御をサポートします。
テキスト生成画像
Transformers 英語

O
openvla
30
10
Paligemma 3b Pt 448
PaliGemmaはSigLIP視覚モデルとGemma言語モデルを基盤とした軽量で多機能な視覚言語モデルで、多言語の画像テキスト相互作用タスクをサポートします。
画像生成テキスト
Transformers

P
google
2,708
29
Paligemma 3b Pt 896
PaliGemmaは、画像とテキストの入力をサポートし、テキスト出力を生成する多機能の軽量級視覚言語モデル(VLM)で、多言語能力を備えています。
画像生成テキスト
Transformers

P
google
1,788
119
Paligemma 3b Ft Nlvr2 224
PaliGemmaは、多言語の入出力をサポートする、画像キャプションや視覚的質問応答などのさまざまな視覚言語タスクに長けた、多機能の軽量級視覚言語モデル(VLM)です。
テキスト生成画像
Transformers

P
google
2,056
1
Paligemma 3b Ft Refcoco Seg 896
PaliGemmaはGoogleが開発した軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基盤としており、多言語テキスト生成と視覚理解タスクをサポートします。
画像生成テキスト
Transformers

P
google
20
6
Paligemma 3b Mix 224
PaliGemmaは多機能で軽量な視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力をサポートし、テキスト結果を出力します。
テキスト生成画像
Transformers

P
google
143.03k
75
Paligemma 3b Pt 224
PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を同時に処理しテキスト出力を生成できます。
画像生成テキスト
Transformers

P
google
38.40k
318
Vitamin XL 384px
MIT
ViTamin-XL-384px はViTaminアーキテクチャに基づく大規模視覚言語モデルで、視覚言語タスク向けに設計されており、高解像度画像処理とマルチモーダル特徴抽出をサポートします。
画像生成テキスト
Transformers

V
jienengchen
104
20
Internvl 14B 224px
MIT
InternVL-14B-224px は14Bパラメータの視覚言語基盤モデルで、様々な視覚言語タスクをサポートします。
テキスト生成画像
Transformers

I
OpenGVLab
521
37
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98