Gemma 3 12b It Quantized.w8a8
google/gemma-3-12b-itをベースとしたINT8量子化バージョンで、視覚テキスト入力とテキスト出力をサポートし、高効率推論デプロイに適しています。
画像生成テキスト
Transformers

G
RedHatAI
237
1
Qwen2.5 VL 3B Instruct GGUF
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とマルチモーダル処理能力を備えています。
画像生成テキスト 英語
Q
unsloth
4,645
4
PE Lang G14 448
Apache-2.0
知覚エンコーダは視覚言語トレーニングによって実現された最先端の画像・動画理解エンコーダで、強力な汎化能力を備えています。
テキスト生成画像
P
facebook
247
11
PE Lang L14 448
Apache-2.0
知覚エンコーダ(PE)は、視覚と言語の学習を通じて訓練された先進的な画像・動画理解エンコーダで、様々な視覚タスクにおいて最先端の性能を発揮します。
テキスト生成画像
P
facebook
1,087
6
Space Model
Apache-2.0
Qwen2.5-VL-32B-InstructはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、マルチモーダルタスク処理をサポートします。
画像生成テキスト
Transformers 複数言語対応

S
Alhdrawi
58
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct はマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。
画像生成テキスト 英語
Q
Mungert
17.10k
10
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct は Qwen ファミリーの最新の視覚言語モデルで、強力なマルチモーダル理解と生成能力を備え、画像、動画、テキストのインタラクションをサポートします。
テキスト生成画像
Transformers 英語

Q
christopherthompson81
68
3
Amoral Gemma3 12B Vision
soob3123/amoral-gemma3-12Bをベースにした視覚強化バージョンで、Gemma3-12B大規模言語モデルと視覚エンコーダーを統合し、マルチモーダルタスクをサポート
画像生成テキスト
Transformers 英語

A
gghfez
25
2
Qwen2.5 VL Instruct 3B Geo
Apache-2.0
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、視覚理解とエージェント能力の強化に焦点を当てています。
テキスト生成画像
Transformers 英語

Q
kxxinDave
29
2
Mlabonne Gemma 3 4b It Abliterated GGUF
これはmlabonne/gemma-3-4b-it-abliteratedモデルを基にした量子化バージョンで、llama.cppを使用してimatrix量子化を行い、画像テキストからテキストへのタスクに適しています。
画像生成テキスト
M
bartowski
9,164
8
Toriigate V0.4 7B I1 GGUF
Apache-2.0
これはMinthy/ToriiGate-v0.4-7Bモデルに対して重み/重要度行列量子化を施したバージョンで、様々なニーズに対応する複数の量子化オプションを提供します。
画像生成テキスト 英語
T
mradermacher
410
1
Qwen2.5 VL 72B Instruct AWQ Fix
その他
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とエージェント能力を備え、マルチフォーマットの視覚位置特定と構造化出力生成をサポートします。
画像生成テキスト
Transformers 英語

Q
Benasd
94
1
Qwen2.5 VL 72B Instruct AWQ
その他
Qwen2.5-VLは通義千問チームが開発したマルチモーダル大規模言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、画像、動画、テキストなど様々な入力形式をサポートします。
テキスト生成画像
Transformers 英語

Q
Benasd
173
6
Qwen2.5 VL 7B Instruct AWQ
Apache-2.0
Qwen2.5-VLは通義千問が開発したマルチモーダル視覚言語モデルで、強力な画像理解とテキスト生成能力を備えています。
画像生成テキスト
Transformers 英語

Q
Benasd
226
7
Minicpm O 2 6 Gguf
MiniCPM-o 2.6はマルチモーダルモデルで、視覚と言語タスクをサポートし、llama.cpp向けに設計されています。
画像生成テキスト
M
openbmb
5,660
101
Razorback 12B V0.2
その他
Razorback 12B v0.2はPixtral 12BとUnslopNemo v3の利点を組み合わせたマルチモーダルモデルで、視覚理解と言語処理能力を備えています。
画像生成テキスト
Transformers 複数言語対応

R
nintwentydo
17
3
Qwen2 VL 72B Instruct GGUF
その他
Qwen2-VL-72B-InstructのGGUF量子化バージョンで、マルチモーダルの画像テキストからテキストへの変換をサポートし、LlamaEdgeで実行できます。
画像生成テキスト
Transformers 英語

Q
second-state
221
0
Llama 3.2 90B Vision Instruct Unsloth Bnb 4bit
Meta Llama 3.2シリーズ90Bパラメータのマルチモーダル大規模言語モデル、視覚的指示理解をサポート、Unsloth動的4ビット量子化で最適化
テキスト生成画像
Transformers 英語

L
unsloth
58
2
Minicpm V 2 6 Rk3588 1.1.4
MiniCPM-V 2.6は単一画像、複数画像、動画理解をサポートするGPT-4Vレベルのマルチモーダル大規模言語モデルで、RK3588 NPU向けに最適化されています
画像生成テキスト
Transformers その他

M
c01zaut
31
3
Cambrian 8b
Apache-2.0
カンブリア紀は、視覚を中核に設計されたオープンソースのマルチモーダルLLM(大規模言語モデル)です。
テキスト生成画像
Transformers

C
nyu-visionx
565
63
Phi 3 Vision 128k Instruct
MIT
Phi-3-Vision-128K-Instructは、軽量で最先端のオープンマルチモーダルモデルで、128Kトークンの文脈長をサポートし、テキストと視覚領域の高品質な推論に焦点を当てています。
画像生成テキスト
Transformers その他

P
microsoft
25.19k
958
Llava Phi 3 Mini 4k Instruct
MIT
Phi-3-mini-3.8B大規模言語モデルとLLaVA v1.5を組み合わせた視覚言語モデルで、高度な視覚言語理解能力を提供します。
画像生成テキスト
Transformers

L
MBZUAI
550
22
Owlv2 Base Patch16
OWLv2は視覚言語事前学習に基づくモデルで、物体検出と位置特定タスクに特化しています。
物体検出
Transformers

O
Xenova
17
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98