Qwen2.5 Vl Vqa Vibook
Apache-2.0
基於Qwen2.5架構的視覺問答模型,專注于越南語場景,支持對圖像相關問題進行解答。
文本生成圖像 其他
Q
sunbv56
148
0
Llada V
LLaDA-V是一款基於擴散模型的視覺語言模型,性能超越其他擴散多模態大語言模型。
文本生成圖像
Safetensors
L
GSAI-ML
174
8
Llama 3.2 11B Vision Radiology Mini
這是一個基於Llama架構的多模態模型,支持視覺和文本指令,經過4位量化優化。
圖像生成文本
L
p4rzvl
69
0
Qwen Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct是一個32B參數規模的多模態視覺語言模型,支持圖像理解和文本生成任務。
文本生成圖像 英語
Q
bartowski
2,782
1
R1 VL 2B
Apache-2.0
R1-VL-2B 是通過逐步組相對策略優化(StepGRPO)訓練得到的視覺語言推理模型,基於Qwen2-VL-2B-Instruct進行優化。
圖像生成文本
Transformers

R
jingyiZ00
272
1
Phi 4 Multimodal Instruct Ko Asr
基於microsoft/Phi-4-multimodal-instruct微調的韓語自動語音識別(ASR)和語音翻譯(AST)模型,在zeroth-korean和fleurs數據集上表現優異。
文本生成音頻
Transformers 韓語

P
junnei
354
3
Smolvlm2 2.2B Instruct 4bit
Apache-2.0
SmolVLM2-2.2B-Instruct-4bit 是一個基於 MLX 格式轉換的視覺語言模型,專注於視頻文本到文本的任務。
圖像生成文本
Transformers 英語

S
smdesai
24
1
Kowen Vol 1 Base 7B
Apache-2.0
基於Qwen2-VL-7B-Instruct的韓語視覺語言模型,支持圖像轉文本任務
圖像生成文本
Transformers 韓語

K
Gwonee
22
1
Pixtral 12B Captioner Relaxed
Apache-2.0
基於Pixtral-12B-2409微調的多模態大語言模型,專注於生成豐富的圖像描述
圖像生成文本
Transformers 英語

P
unalignment
26
3
Med CXRGen I
Apache-2.0
Med-CXRGen-I是基於LLaVA-v1.5-7B微調的多模態大語言模型,專注於胸部X光影像的放射學報告生成任務,特別是印象部分的生成。
圖像生成文本
Transformers

M
X-iZhang
86
1
Med CXRGen F
Apache-2.0
Med-CXRGen-F是一個基於LLaVA-v1.5-7B微調的多模態大語言模型,專門用於放射學報告生成任務,特別是胸部X光檢查結果部分的自動生成。
圖像生成文本
Transformers

M
X-iZhang
86
1
Qwen2 VL 7B SafeRLHF
Apache-2.0
Qwen2-VL-7B-Instruct 是一個基於 SafeRLHF 數據集微調的多模態大語言模型,專注於視覺問答任務,並強調安全性。
文本生成圖像
Safetensors 英語
Q
Foreshhh
1,630
2
Xgen Mm Phi3 Mini Instruct Dpo R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research開發的多模態基礎模型系列,基於BLIP系列改進,在高質量圖像字幕和交錯圖文數據上訓練。
圖像生成文本 英語
X
Salesforce
305
18
Chartgemma
MIT
ChartGemma是基於PaliGemma構建的圖表理解與推理模型,通過視覺指令微調直接處理圖表圖像,捕捉視覺趨勢和底層信息。
圖像生成文本
Transformers 英語

C
ahmed-masry
1,243
41
Xgen Mm Phi3 Mini Instruct R V1
xGen-MM是Salesforce AI Research開發的最新基礎大型多模態模型系列,基於BLIP系列改進,具有強大的圖像理解和文本生成能力。
圖像生成文本
Transformers 英語

X
Salesforce
804
186
Vip Llava 7b
ViP-LLaVA 是一款開源多模態聊天機器人,通過對 LLaMA/Vicuna 進行圖像和區域級別指令數據的微調訓練而成。
文本生成圖像
Transformers

V
mucai
66.75k
8
Llava Med 7b Delta
其他
LLaVA-Med是通過視覺指令微調構建的生物醫學領域多模態模型,具備處理生物醫學圖像和文本的能力。
文本生成圖像
Transformers

L
microsoft
257
67
OTTER MPT7B Init
MIT
OTTER-MPT7B-Init是一個用於初始化Otter模型訓練的權重,由Openflamingo直接轉換而來。
文本生成圖像
Transformers

O
luodian
53
3
Blip Image Captioning
這是一個基於 BLIP 架構的圖像描述生成模型,能夠為輸入的圖片生成簡潔的文字描述。
圖像生成文本
Transformers

B
nnpy
17
6
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98