Qwen2.5 Vl Vqa Vibook
Apache-2.0
Qwen2.5アーキテクチャに基づくビジュアルQAモデルで、ベトナム語シナリオに特化し、画像関連の質問に対する解答をサポートします。
テキスト生成画像 その他
Q
sunbv56
148
0
R1 VL 2B
Apache-2.0
R1-VL-2Bは、段階的グループ相対戦略最適化(StepGRPO)によって訓練された視覚言語推論モデルで、Qwen2-VL-2B-Instructを基に最適化されています。
画像生成テキスト
Transformers

R
jingyiZ00
272
1
Phi 4 Multimodal Instruct Ko Asr
microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。
テキスト生成オーディオ
Transformers 韓国語

P
junnei
354
3
Smolvlm2 2.2B Instruct 4bit
Apache-2.0
SmolVLM2-2.2B-Instruct-4bit はMLXフォーマット変換に基づく視覚言語モデルで、動画テキストからテキストへのタスクに特化しています。
画像生成テキスト
Transformers 英語

S
smdesai
24
1
Kowen Vol 1 Base 7B
Apache-2.0
Qwen2-VL-7B-Instructを基にした韓国語視覚言語モデルで、画像からテキストタスクをサポート
画像生成テキスト
Transformers 韓国語

K
Gwonee
22
1
Pixtral 12B Captioner Relaxed
Apache-2.0
Pixtral-12B-2409を微調整したマルチモーダル大規模言語モデルで、豊富な画像説明の生成に特化
画像生成テキスト
Transformers 英語

P
unalignment
26
3
Llama 3.2 11B Vision Instruct Abliterated 8 Bit
これはLlama-3.2-11B-Vision-Instructに基づくマルチモーダルモデルで、画像とテキストの入力をサポートし、テキスト出力を生成します。
画像生成テキスト
Transformers 複数言語対応

L
mlx-community
128
0
Qwen2 VL 7B SafeRLHF
Apache-2.0
Qwen2-VL-7B-Instructは、SafeRLHFデータセットで微調整されたマルチモーダル大規模言語モデルで、視覚質問応答タスクに焦点を当て、安全性を重視しています。
テキスト生成画像
Safetensors 英語
Q
Foreshhh
1,630
2
Chartgemma
MIT
ChartGemmaはPaliGemmaを基に構築されたグラフ理解と推論モデルで、視覚的指令微調整を通じて直接グラフ画像を処理し、視覚的トレンドと基盤情報を捕捉します。
画像生成テキスト
Transformers 英語

C
ahmed-masry
1,243
41
Vip Llava 7b
ViP-LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを画像と地域レベルの命令データで微調整してトレーニングされています。
テキスト生成画像
Transformers

V
mucai
66.75k
8
Llava Med 7b Delta
その他
LLaVA-Medは視覚命令微調整によって構築されたバイオメディカル分野のマルチモーダルモデルで、バイオメディカル画像とテキストを処理する能力を備えています。
テキスト生成画像
Transformers

L
microsoft
257
67
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98