Internvl3 8B Bf16
其他
InternVL3-8B-bf16 是一個基於 MLX 格式轉換的視覺語言模型,支持多語言圖像文本到文本任務。
圖像生成文本
Transformers 其他

I
mlx-community
96
1
Qwen2.5vl 3B VLM R1 REC 500steps
基於Qwen2.5-VL-3B-Instruct的視覺語言模型,通過VLM-R1強化學習增強,專注於指代表達式理解任務。
文本生成圖像
Safetensors 英語
Q
omlab
976
22
Eagle2 9B
Eagle2是一個高性能的視覺語言模型系列,專注於通過數據策略和訓練方法的優化來提升模型性能。Eagle2-9B是該系列中的大型模型,在性能和推理速度之間取得了良好平衡。
文本生成圖像
Transformers 其他

E
KnutJaegersberg
15
4
Eagle2 9B
Eagle2-9B是NVIDIA發佈的最新視覺語言模型(VLM),在性能和推理速度之間實現了完美平衡。它基於Qwen2.5-7B-Instruct語言模型和Siglip+ConvNext視覺模型構建,支持多語言和多模態任務。
圖像生成文本
Transformers 其他

E
nvidia
944
52
Biotrove CLIP
MIT
BioTrove-CLIP 是一套基於 CLIP 風格的生物多樣性視覺語言基礎模型,在包含 4000 萬張圖像和 3.3 萬種植物和動物物種的數據集上訓練。
文本生成圖像 英語
B
BGLab
48
2
Qwen For Jawi V1
基於Qwen2-VL-2B-Instruct微調的爪夷文OCR模型,專門用於識別歷史馬來文本
圖像生成文本
Transformers

Q
culturalheritagenus
155
1
Vitamin XL 256px
MIT
ViTamin-XL-256px是基於ViTamin架構的視覺語言模型,專為高效視覺特徵提取和多模態任務設計,支持高分辨率圖像處理。
文本生成圖像
Transformers

V
jienengchen
655
1
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98