Blip Arabic Flickr 8k
MIT
BLIPアーキテクチャをファインチューニングしたアラビア語画像キャプション生成モデルで、Flickr8kアラビア語データセットに最適化されています
画像生成テキスト
Transformers 複数言語対応

B
omarsabri8756
56
1
Skywork VL Reward 7B
MIT
Skywork-VL-Reward-7Bは7Bパラメータのマルチモーダル報酬モデルで、Qwen2.5-VL-7B-Instructアーキテクチャを基に、報酬モデルトレーニング用の価値ヘッド構造を追加しています。
マルチモーダル融合
Transformers

S
Skywork
30
8
Skywork R1V2 38B
MIT
天工-R1V2-38Bは現在最も先進的なオープンソースのマルチモーダル推論モデルで、多くのベンチマークテストで卓越したパフォーマンスを示し、強力な視覚推論とテキスト理解能力を備えています。
画像生成テキスト
Transformers

S
Skywork
1,778
105
Emova Qwen 2 5 3b
Apache-2.0
EMOVAはエンドツーエンドの全モーダル対応大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情制御可能なテキストと音声応答を生成できます。
マルチモーダル融合
Transformers 複数言語対応

E
Emova-ollm
25
2
Gemma 3 4b It Qat GGUF
Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルを作成したのと同じ研究と技術に基づいています。このモデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成できます。
テキスト生成画像 英語
G
unsloth
2,629
2
VL Rethinker 7B Mlx 4bit
Apache-2.0
VL-Rethinker-7B 4ビットMLX量子化版はTIGER-Lab/VL-Rethinker-7Bモデルの量子化バージョンで、Appleデバイス向けに最適化され、視覚質問応答タスクをサポートします。
テキスト生成画像 英語
V
TheCluster
14
0
Llama 3.2 11B Vision Radiology Mini
これはLlamaアーキテクチャに基づくマルチモーダルモデルで、視覚とテキストの命令をサポートし、4ビット量子化で最適化されています。
画像生成テキスト
L
p4rzvl
69
0
Internvl3 78B Pretrained
その他
InternVL3-78BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、卓越した総合性能を発揮します。前世代のInternVL 2.5と比較し、より強力なマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などの新領域に能力を拡張しています。
テキスト生成画像
Transformers その他

I
OpenGVLab
22
1
VL Rethinker 7B Fp16
Apache-2.0
このモデルはQwen2.5-VL-7B-Instructを変換したマルチモーダル視覚言語モデルで、視覚質問応答タスクをサポートします。
テキスト生成画像
Transformers 英語

V
mlx-community
17
0
VL Rethinker 72B 4bit
Apache-2.0
VL-Rethinker-72B-4bitはQwen2.5-VL-7B-Instructをベースにしたマルチモーダルモデルで、視覚QAタスクをサポートし、Appleデバイスで効率的に動作するようMLXフォーマットに変換されています。
テキスト生成画像
Transformers 英語

V
mlx-community
26
0
Qwen2.5 VL 7B Instruct Gptqmodel Int8
MIT
Qwen2.5-VL-7B-Instructモデルに基づいてGPTQ-INT8量子化を行った視覚言語モデル
画像生成テキスト
Transformers 複数言語対応

Q
wanzhenchn
101
0
Llama 4 Maverick 17B 128E Instruct 6bit
その他
Meta Llama 4モデルを基に変換された6ビット量子化バージョンで、多言語命令対話をサポートします。
大規模言語モデル
Transformers 複数言語対応

L
mlx-community
350
0
Vora 7B Base
VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。
画像生成テキスト
Transformers

V
Hon-Wong
62
4
Qwen2.5 VL 72B Instruct GGUF
その他
Qwen2.5-VL-72B-Instructは72Bパラメータ規模のマルチモーダル大規模モデルで、視覚-言語タスクをサポートし、画像に関連するテキスト内容を理解し生成できます。
テキスト生成画像 英語
Q
Mungert
2,798
5
Qwen Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instructは32Bパラメータ規模のマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。
テキスト生成画像 英語
Q
bartowski
2,782
1
3B Curr ReFT
Apache-2.0
Qwen2.5-VLを基に革新的なCurr-ReFT手法でファインチューニングされたマルチモーダル大規模言語モデルで、視覚言語理解と推論能力が大幅に向上しています。
テキスト生成画像
3
ZTE-AIM
37
3
Internvl2 5 HiMTok 8B
Apache-2.0
HiMTokはInternVL2_5-8B大規模マルチモーダルモデルをファインチューニングした階層型マスクトークン学習フレームワークで、画像セグメンテーションタスクに特化しています。
画像生成テキスト
I
yayafengzi
16
3
Rexseek 3B
その他
これは画像テキストからテキストへの変換モデルで、画像とテキスト入力を処理し、対応するテキスト出力を生成できます。
テキスト生成画像
Transformers

R
IDEA-Research
186
4
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
このモデルはQwen2-VL-7B-Captioner-RelaxedをGGUF形式に変換したバージョンで、画像からテキストへのタスクに最適化されており、llama.cppやKoboldcppなどのツールで実行可能です。
画像生成テキスト 英語
Q
r3b31
321
1
Mmmamba Linear
MIT
mmMamba-linearは、中規模な学術計算リソースで二次から線形への蒸留を実現した初の純粋デコーダ型マルチモーダル状態空間モデルで、効率的なマルチモーダル処理能力を備えています。
画像生成テキスト
Transformers

M
hustvl
16
3
Qwen2 Vl 7b Rslora Offensive Meme Singapore
MIT
シンガポールの文脈における冒犯性絵文字の分類を目的とした視覚言語モデル。Qwen2-VL-7B-Instructをベースに微調整されています。
マルチモーダル融合
Transformers 英語

Q
aliencaocao
1,684
0
Mulberry Qwen2vl 7b
Apache-2.0
桑実モデルは段階的推論に基づくモデルで、集団知識検索によって生成されたMulberry - 260K SFTデータセットで訓練されています。
テキスト生成画像
Transformers

M
HuanjinYao
13.57k
1
Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224
Apache-2.0
DeepSeerはDeepSeek-R1モデルを基に開発された視覚言語モデルで、思考連鎖推論能力をサポートし、対話テンプレートを通じて視覚モデルを訓練します。
画像生成テキスト
Transformers

D
mehmetkeremturkcan
25
2
Migician
Apache-2.0
マジシャンは、自由形式のマルチイメージローカライゼーション能力を備えた初のマルチモーダル大規模言語モデルで、複雑なマルチイメージシーンにおいて高精度なローカライゼーションを実現し、70B規模のモデルを超える性能を発揮します。
テキスト生成画像
Transformers 英語

M
Michael4933
83
1
Open LLaVA NeXT LLaMA3 8B
Apache-2.0
オープンソースのチャットボットモデルで、オープンソースデータ上でモデル全体を微調整して訓練され、マルチモーダルモデルとチャットボットの研究に使用できます。
テキスト生成画像
Safetensors
O
Share4oReasoning
215
0
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instructはマルチモーダル視覚言語モデルで、画像とテキストの統合理解と生成をサポートします。
テキスト生成画像
Transformers 英語

Q
tensorblock
124
0
Minivla Vq Libero90 Prismatic
MIT
MiniVLAは軽量な視覚言語モデルで、Prismatic VLMsトレーニングフレームワークと互換性があり、画像テキストからテキストへのマルチモーダルタスクをサポートします。
画像生成テキスト
Transformers 英語

M
Stanford-ILIAD
31
0
Glm Edge V 5b
その他
GLM-Edge-V-5Bは50億パラメータのマルチモーダルモデルで、画像とテキスト入力をサポートし、画像理解とテキスト生成タスクを実行できます。
画像生成テキスト
G
THUDM
4,357
12
Emu3 Stage1
Apache-2.0
Emu3は北京智源研究院によって開発されたマルチモーダルモデルで、次のトークンを予測するだけで訓練され、画像、テキスト、動画処理をサポートします。
テキスト生成画像
Transformers

E
BAAI
1,359
26
Llama 3 EvoVLM JP V2
Llama-3-EvoVLM-JP-v2 は実験的な汎用日本語視覚言語モデルで、テキストと画像の交互入力をサポートしています。このモデルは進化的モデル融合手法を用いて作成されました。
画像生成テキスト
Transformers 日本語

L
SakanaAI
475
20
Cephalo Idefics 2 Vision 10b Alpha
Apache-2.0
Cephaloはマルチモーダル材料科学に特化した一連の視覚大規模言語モデル(V-LLMs)で、視覚と言語データを統合し、人間と機械のインタラクションやマルチエージェントAIフレームワークにおける高度な理解と相互作用を促進することを目的としています。
画像生成テキスト
Transformers その他

C
lamm-mit
137
1
Open Llava Next Llama3 8b
Apache-2.0
オープンソースのチャットボットモデルで、オープンソースデータ上でモデル全体を微調整して訓練され、マルチモーダルモデルとチャットボットの研究に使用できます。
テキスト生成画像
Transformers

O
Lin-Chen
323
26
Denseconnector V1.5 8B
DenseConnectorはオープンソースのチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTが生成したマルチモーダル指示追従データでトレーニングされています。
画像生成テキスト
Transformers

D
HuanjinYao
17
7
Cephalo Idefics 2 Vision 8b Alpha
Apache-2.0
Cephaloは、マルチモーダル材料科学に特化した一連の視覚大規模言語モデル(V-LLMs)で、視覚と言語データを統合し、人間と機械の相互作用やマルチエージェントAIフレームワークにおける高度な理解と相互作用を促進することを目的としています。
画像生成テキスト
Transformers その他

C
lamm-mit
150
1
Llava Jp 1.3b V1.1
LLaVA-JPは日本語をサポートするマルチモーダル視覚言語モデルで、入力画像に関する説明や対話を理解し生成できます。
画像生成テキスト
Transformers 日本語

L
toshi456
90
11
Image Model
これはtransformersベースの画像からテキストへの変換モデルで、具体的な機能はさらに情報を追加する必要があります
画像生成テキスト
Transformers

I
Mouwiya
15
0
Llava Next Mistral 7b 4096
LLaVA-v1.6-Mistral-7Bモデルを微調整したマルチモーダルモデルで、画像とテキストの統合理解と生成をサポート
テキスト生成画像
Transformers

L
Mantis-VL
40
2
Llava V1.5 13b Dpo Gguf
LLaVA-v1.5-13B-DPOはLLaVAフレームワークに基づく視覚言語モデルで、直接選好最適化(DPO)でトレーニングされ、推論効率向上のためにGGUF量子化フォーマットに変換されています。
画像生成テキスト
L
antiven0m
30
0
Llava V1.6 34b
Apache-2.0
LLaVAはオープンソースのマルチモーダルチャットボットで、大規模言語モデルのファインチューニングにより訓練され、画像とテキストのインタラクションをサポートします。
テキスト生成画像
L
liuhaotian
9,033
351
Moe LLaVA StableLM 1.6B 4e
Apache-2.0
MoE-LLaVAはエキスパート混合アーキテクチャに基づく大規模視覚言語モデルで、スパース活性化パラメータにより効率的なマルチモーダル学習を実現します。
テキスト生成画像
Transformers

M
LanguageBind
125
8
- 1
- 2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98