# 多模態視覺語言模型

Internvl3 8B Bf16
其他
InternVL3-8B-bf16 是一個基於 MLX 格式轉換的視覺語言模型,支持多語言圖像文本到文本任務。
圖像生成文本 Transformers 其他
I
mlx-community
96
1
Qwen2.5vl 3B VLM R1 REC 500steps
基於Qwen2.5-VL-3B-Instruct的視覺語言模型,通過VLM-R1強化學習增強,專注於指代表達式理解任務。
文本生成圖像 Safetensors 英語
Q
omlab
976
22
Eagle2 9B
Eagle2是一個高性能的視覺語言模型系列,專注於通過數據策略和訓練方法的優化來提升模型性能。Eagle2-9B是該系列中的大型模型,在性能和推理速度之間取得了良好平衡。
文本生成圖像 Transformers 其他
E
KnutJaegersberg
15
4
Eagle2 9B
Eagle2-9B是NVIDIA發佈的最新視覺語言模型(VLM),在性能和推理速度之間實現了完美平衡。它基於Qwen2.5-7B-Instruct語言模型和Siglip+ConvNext視覺模型構建,支持多語言和多模態任務。
圖像生成文本 Transformers 其他
E
nvidia
944
52
Biotrove CLIP
MIT
BioTrove-CLIP 是一套基於 CLIP 風格的生物多樣性視覺語言基礎模型,在包含 4000 萬張圖像和 3.3 萬種植物和動物物種的數據集上訓練。
文本生成圖像 英語
B
BGLab
48
2
Qwen For Jawi V1
基於Qwen2-VL-2B-Instruct微調的爪夷文OCR模型,專門用於識別歷史馬來文本
圖像生成文本 Transformers
Q
culturalheritagenus
155
1
Vitamin XL 256px
MIT
ViTamin-XL-256px是基於ViTamin架構的視覺語言模型,專為高效視覺特徵提取和多模態任務設計,支持高分辨率圖像處理。
文本生成圖像 Transformers
V
jienengchen
655
1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase