Spatial LLaVA 7B Gguf
Apache-2.0
Spatial-LLaVA-7BはLLaVAモデルを微調整したマルチモーダルモデルで、空間関係推論能力の向上に特化しており、マルチモーダル研究やチャットボット開発に適しています。
テキスト生成画像
Safetensors
S
rogerxi
252
1
Qwen3 8B NEO Imatrix Max GGUF
Apache-2.0
Qwen3-8Bモデルに基づくNEO Imatrix量子化バージョンで、32Kの長文脈と強化された推論能力をサポートします。
大規模言語モデル
Q
DavidAU
178
1
VL Rethinker 72B Mlx 4bit
Apache-2.0
VL-Rethinker-72Bの4ビット量子化バージョンで、AppleデバイスのMLXフレームワークに適しており、視覚質問応答タスクをサポートします。
テキスト生成画像 英語
V
TheCluster
14
0
Gemma 3 12b It GPTQ 4b 128g
このモデルはgoogle/gemma-3-12b-itをINT4量子化したバージョンで、GPTQアルゴリズムによりパラメータを16ビットから4ビットに削減し、ディスク容量とGPUメモリ要件を大幅に削減しました。
画像生成テキスト
Transformers

G
ISTA-DASLab
1,175
2
Vora 7B Instruct
VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。
画像生成テキスト
Transformers

V
Hon-Wong
154
12
Vora 7B Base
VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。
画像生成テキスト
Transformers

V
Hon-Wong
62
4
Qwen2.5 VL 7B Instruct Q4 K M GGUF
Apache-2.0
これはQwen2.5-VL-7B-InstructモデルのGGUF量子化バージョンで、マルチモーダルタスクに適しており、画像とテキスト入力をサポートします。
画像生成テキスト 英語
Q
PatataAliena
69
1
Q Sit
MIT
Q-SiT Miniは軽量な画像品質評価と対話モデルで、画像品質分析とスコアリングに特化しています。
画像生成テキスト
Transformers

Q
zhangzicheng
79
0
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf は動画ベースのマルチモーダルモデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。
ビデオ生成テキスト
Safetensors 英語
L
FriendliAI
30
0
Qwen2.5 VL 7B Instruct GPTQ Int4
Apache-2.0
Qwen2.5-VL-7B-Instruct-GPTQ-Int4はQwen2.5-VL-7B-Instructモデルを非公式にGPTQ-Int4量子化したバージョンで、画像からテキストへのマルチモーダルタスクをサポートします。
画像生成テキスト
Transformers 複数言語対応

Q
hfl
872
3
Internvl 2 5 HiCo R64
Apache-2.0
長く豊富なコンテキスト(LRC)モデリングを強化した動画マルチモーダル大規模言語モデル。細かいディテールの知覚と長時間の時間的構造の捕捉能力を向上させ、既存のMLLMを改善
ビデオ生成テキスト
Transformers 英語

I
OpenGVLab
252
2
Internlm Xcomposer2d5 7b Chat
その他
InternLM-XComposer2.5-ChatはInternLM-XComposer2.5-7Bでトレーニングされた対話モデルで、マルチモーダル命令追従とオープンエンド対話能力が大幅に向上しています。
テキスト生成画像
PyTorch
I
internlm
87
5
QVQ 72B Preview Abliterated GPTQ Int8
その他
これはQVQ-72B-Preview-abliteratedモデルのGPTQ量子化8ビットバージョンで、画像テキストからテキストへの変換タスクをサポートします。
画像生成テキスト
Transformers 英語

Q
huihui-ai
48
1
Apollo LMMs Apollo 7B T32
Apache-2.0
Apolloは1時間に及ぶ長編動画の理解に特化した一連の大型マルチモーダルモデルで、複雑な動画質問応答やマルチターン対話を得意としています。
ビデオ生成テキスト
Transformers 英語

A
GoodiesHere
67
55
Apollo LMMs Apollo 1 5B T32
Apache-2.0
Apolloは動画理解に特化した一連の大型マルチモーダルモデルで、長尺動画の内容理解、時系列推論、複雑な動画質問応答などのタスクに優れています。
ビデオ生成テキスト
A
GoodiesHere
37
10
Llama3.1 Typhoon2 Audio 8b Instruct
タイフーン2-オーディオ版は、オーディオ、音声、テキスト入力を処理し、テキストと音声の両方を同時に生成できるエンドツーエンドの音声変換モデルアーキテクチャです。このモデルは特にタイ語に最適化されており、英語もサポートしています。
テキスト生成オーディオ
Transformers 複数言語対応

L
scb10x
664
9
Mini InternVL2 1B DA DriveLM
MIT
Mini-InternVL2-DA-RSはリモートセンシング画像分野に最適化されたマルチモーダルモデルで、Mini-InternVLアーキテクチャを基に、ドメイン適応フレームワークで微調整され、リモートセンシング画像理解タスクで優れた性能を発揮します。
画像生成テキスト
Transformers その他

M
OpenGVLab
61
1
VARCO VISION 14B HF
VARCO-VISION-14Bは強力な英韓視覚言語モデルで、画像とテキスト入力をサポートし、テキスト出力を生成します。位置特定、参照、OCR機能を備えています。
画像生成テキスト
Transformers 複数言語対応

V
NCSOFT
449
24
Chatrex 7B
ChatRexは優れた知覚能力を持つマルチモーダル大規模言語モデルで、質問に答える際に答えを具体的なオブジェクトに関連付けることができます。
画像生成テキスト
Safetensors 英語
C
IDEA-Research
825
14
Glm Edge V 5b
その他
GLM-Edge-V-5Bは50億パラメータのマルチモーダルモデルで、画像とテキスト入力をサポートし、画像理解とテキスト生成タスクを実行できます。
画像生成テキスト
G
THUDM
4,357
12
Glm Edge V 2b
その他
GLM-Edge-V-2BはPytorchフレームワークに基づく画像テキストからテキストへのモデルで、中国語処理をサポートしています。
画像生成テキスト
G
THUDM
23.43k
11
Aria Sequential Mlp Bnb Nf4
Apache-2.0
Aria-sequential_mlpベースのBitsAndBytes NF4量子化バージョンで、画像テキストからテキストタスクに適しており、VRAM要件は約15.5GBです。
画像生成テキスト
Transformers

A
leon-se
76
11
Aria Sequential Mlp FP8 Dynamic
Apache-2.0
Aria-sequential_mlpベースのFP8動的量子化モデルで、画像テキストからテキストタスクに適しており、VRAM要件は約30GBです。
画像生成テキスト
Transformers

A
leon-se
94
6
Videochat2 HD Stage4 Mistral 7B Hf
MIT
VideoChat2-HD-hfは、Mistral-7Bに基づくマルチモーダルビデオ理解モデルで、ビデオテキスト変換タスクに特化しています。
ビデオ生成テキスト
V
OpenGVLab
393
3
Qwen2 Vl Tiny Random
これはQwen2-VL-7B-Instruct設定に基づきランダム初期化された小型デバッグモデルで、視覚言語タスク用です
画像生成テキスト
Transformers

Q
yujiepan
27
1
Qwen2 Audio 7B Instruct 4bit
これはQwen2-Audio-7B-Instructの4ビット量子化バージョンで、アリババクラウドのオリジナルQwenモデルに基づいて開発された、オーディオ-テキストマルチモーダル大規模言語モデルです。
音声生成テキスト
Transformers

Q
alicekyting
1,090
6
Internvideo2 Chat 8B InternLM2 5
MIT
InternVideo2-Chat-8B-InternLM2.5は、動画-テキストマルチモーダルモデルで、InternVideo2動画エンコーダーと大規模言語モデル(LLM)を統合することで、動画理解と人間との対話能力を強化しています。
ビデオ生成テキスト
I
OpenGVLab
60
7
Mplug Owl3 7B 240728
Apache-2.0
mPLUG-Owl3は、長い画像シーケンス理解の課題を解決するために設計された最先端のマルチモーダル大規模言語モデルで、単一画像、複数画像、および動画タスクの処理をサポートします。
テキスト生成画像 英語
M
mPLUG
4,823
39
Banban Beta V2 Gguf
AIバーチャルYouTuber板板モデル、NTNU VLSIサークル専用に設計されたバーチャルYouTuberアシスタントで、画像テキストからテキストへの変換能力を有します。
画像生成テキスト 複数言語対応
B
asadfgglie
97
1
Internvideo2 Chat 8B HD
MIT
InternVideo2-Chat-8B-HDは、大規模言語モデルと動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、高精細動画入力を処理できます。
ビデオ生成テキスト
I
OpenGVLab
190
16
Llava Saiga 8b
Apache-2.0
LLaVA-Saiga-8bはIlyaGusev/saiga_llama3_8bモデルを基に開発された視覚-言語モデル(VLM)で、主にロシア語タスクに適応していますが、英語処理能力も保持しています。
画像生成テキスト
Transformers 複数言語対応

L
deepvk
205
16
Tinyllava 1.1b V0.1
Apache-2.0
TinyLlama-1.1Bベースの軽量ビジュアルQAモデルで、BakLlavaコードベースでトレーニングされ、画像コンテンツ理解とQAタスクをサポートします。
テキスト生成画像
Transformers

T
TitanML
27
0
Llava Calm2 Siglip
Apache-2.0
llava-calm2-siglip は実験的な視覚言語モデルで、画像に関する質問に日本語と英語で回答できます。
画像生成テキスト
Transformers 複数言語対応

L
cyberagent
3,930
25
Paligemma 3B Chat V0.2
google/paligemma-3b-mix-448を微調整したマルチモーダル対話モデルで、マルチターン対話シーンに最適化されています
テキスト生成画像
Transformers 複数言語対応

P
BUAADreamer
80
9
Vision 8B MiniCPM 2 5 Uncensored And Detailed 4bit
MiniCPM-Llama3-V 2.5のint4量子化バージョンで、GPU VRAM使用量を大幅に削減(約9GB)
テキスト生成画像
Transformers

V
sdasd112132
330
30
Cogvlm2 Llama3 Chat 19B Int4
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル対話モデルで、中英語をサポートし、8Kのコンテキスト長と1344*1344解像度の画像処理能力を備えています。
テキスト生成画像
Transformers 英語

C
THUDM
467
28
Minicpm Llama3 V 2 5 Int4
MiniCPM-Llama3-V 2.5のint4量子化バージョンで、GPU VRAM使用量を約9GBに大幅に削減し、視覚質問応答タスクに適しています。
テキスト生成画像
Transformers

M
openbmb
17.97k
73
360VL 70B
Apache-2.0
360VLはLLama3言語モデルを基に開発されたオープンソースの大規模マルチモーダルモデルで、強力な画像理解能力と二言語テキストサポートを備えています。
テキスト生成画像
Transformers 複数言語対応

3
qihoo360
103
10
Cogvlm2 Llama3 Chinese Chat 19B
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、中英二言語をサポートし、強力な画像理解と対話能力を備えています。
テキスト生成画像
Transformers 英語

C
THUDM
118
68
Cogvlm2 Llama3 Chat 19B
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、画像理解と対話タスクをサポートし、8Kのコンテキスト長と1344x1344の画像解像度処理能力を備えています。
テキスト生成画像
Transformers 英語

C
THUDM
7,805
212
- 1
- 2
- 3
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98