Blip Arabic Flickr 8k
MIT
基於BLIP架構微調的阿拉伯語圖像字幕生成模型,專門針對Flickr8k阿拉伯語數據集優化
圖像生成文本
Transformers 支持多種語言

B
omarsabri8756
56
1
Skywork VL Reward 7B
MIT
Skywork-VL-Reward-7B是一個7B參數的多模態獎勵模型,基於Qwen2.5-VL-7B-Instruct架構,增加了用於訓練獎勵模型的價值頭結構。
多模態融合
Transformers

S
Skywork
30
8
Skywork R1V2 38B
MIT
天工-R1V2-38B是當前最先進的開源多模態推理模型,在多項基準測試中表現卓越,具備強大的視覺推理與文本理解能力。
圖像生成文本
Transformers

S
Skywork
1,778
105
Emova Qwen 2 5 3b
Apache-2.0
EMOVA是一種端到端全能模態大語言模型,支持視覺、聽覺和語音功能,能夠生成具有情感控制的文本和語音響應。
多模態融合
Transformers 支持多種語言

E
Emova-ollm
25
2
Gemma 3 4b It Qat GGUF
Gemma 3是谷歌推出的輕量級先進開放模型系列,基於創建Gemini模型的相同研究和技術構建。該模型是多模態的,能夠處理文本和圖像輸入並生成文本輸出。
文本生成圖像 英語
G
unsloth
2,629
2
VL Rethinker 7B Mlx 4bit
Apache-2.0
VL-Rethinker-7B 4位MLX量化版是基於TIGER-Lab/VL-Rethinker-7B模型的量化版本,專為蘋果設備優化,支持視覺問答任務。
文本生成圖像 英語
V
TheCluster
14
0
Llama 3.2 11B Vision Radiology Mini
這是一個基於Llama架構的多模態模型,支持視覺和文本指令,經過4位量化優化。
圖像生成文本
L
p4rzvl
69
0
Internvl3 78B Pretrained
其他
InternVL3-78B是OpenGVLab推出的先進多模態大語言模型,展現卓越的綜合性能。相比前代InternVL 2.5,具備更強大的多模態感知與推理能力,並將能力拓展至工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域。
文本生成圖像
Transformers 其他

I
OpenGVLab
22
1
VL Rethinker 7B Fp16
Apache-2.0
該模型是基於Qwen2.5-VL-7B-Instruct轉換而來的多模態視覺語言模型,支持視覺問答任務。
文本生成圖像
Transformers 英語

V
mlx-community
17
0
VL Rethinker 72B 4bit
Apache-2.0
VL-Rethinker-72B-4bit是一個基於Qwen2.5-VL-7B-Instruct的多模態模型,支持視覺問答任務,已轉換為MLX格式以便在蘋果設備上高效運行。
文本生成圖像
Transformers 英語

V
mlx-community
26
0
Vora 7B Base
VoRA是一個基於7B參數的視覺語言模型,能夠處理圖像和文本輸入,生成文本輸出。
圖像生成文本
Transformers

V
Hon-Wong
62
4
Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct是一個72B參數規模的多模態大模型,支持視覺-語言任務,能夠理解和生成與圖像相關的文本內容。
文本生成圖像 英語
Q
Mungert
2,798
5
Qwen Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct是一個32B參數規模的多模態視覺語言模型,支持圖像理解和文本生成任務。
文本生成圖像 英語
Q
bartowski
2,782
1
3B Curr ReFT
Apache-2.0
基於Qwen2.5-VL通過創新性Curr-ReFT方法微調的多模態大語言模型,顯著提升了視覺語言理解與推理能力。
文本生成圖像
3
ZTE-AIM
37
3
Internvl2 5 HiMTok 8B
Apache-2.0
HiMTok是一個基於InternVL2_5-8B大型多模態模型微調的分層掩碼標記學習框架,專注於圖像分割任務。
圖像生成文本
I
yayafengzi
16
3
Rexseek 3B
其他
這是一個圖像文本到文本的轉換模型,能夠處理圖像和文本輸入,生成相應的文本輸出。
文本生成圖像
Transformers

R
IDEA-Research
186
4
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
該模型是基於Qwen2-VL-7B-Captioner-Relaxed轉換的GGUF格式版本,專為圖像轉文本任務優化,支持通過llama.cpp和Koboldcpp等工具運行。
圖像生成文本 英語
Q
r3b31
321
1
Mmmamba Linear
MIT
mmMamba-linear是首個通過中等學術計算資源實現二次到線性蒸餾的純解碼器多模態狀態空間模型,具有高效的多模態處理能力。
圖像生成文本
Transformers

M
hustvl
16
3
Mulberry Qwen2vl 7b
Apache-2.0
桑葚模型是一個基於逐步推理的模型,通過集體知識搜索生成的Mulberry - 260K SFT數據集上進行訓練。
文本生成圖像
Transformers

M
HuanjinYao
13.57k
1
Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224
Apache-2.0
DeepSeer是基於DeepSeek-R1模型開發的視覺語言模型,支持思維鏈推理能力,通過對話模板訓練視覺模型。
圖像生成文本
Transformers

D
mehmetkeremturkcan
25
2
Migician
Apache-2.0
魔術師是首個具備自由形式多圖像定位能力的多模態大語言模型,在複雜多圖像場景中實現精確定位,性能超越70B規模模型。
文本生成圖像
Transformers 英語

M
Michael4933
83
1
Minivla Vq Libero90 Prismatic
MIT
MiniVLA是一個輕量級的視覺語言模型,兼容Prismatic VLMs訓練框架,支持圖像文本到文本的多模態任務。
圖像生成文本
Transformers 英語

M
Stanford-ILIAD
31
0
Glm Edge V 5b
其他
GLM-Edge-V-5B是一個50億參數的多模態模型,支持圖像和文本輸入,能夠執行圖像理解和文本生成任務。
圖像生成文本
G
THUDM
4,357
12
Emu3 Stage1
Apache-2.0
Emu3是由北京智源研究院開發的多模態模型,僅通過預測下一個標記訓練而成,支持圖像、文本和視頻處理。
文本生成圖像
Transformers

E
BAAI
1,359
26
Llama 3 EvoVLM JP V2
Llama-3-EvoVLM-JP-v2 是一款實驗性通用日語視覺語言模型,支持交錯輸入文本和圖像。該模型採用進化模型融合方法創建。
圖像生成文本
Transformers 日語

L
SakanaAI
475
20
Cephalo Idefics 2 Vision 10b Alpha
Apache-2.0
Cephalo是一系列專注於多模態材料科學的視覺大語言模型(V-LLMs),旨在整合視覺和語言數據,以促進人機交互或多智能體AI框架中的高級理解和交互。
圖像生成文本
Transformers 其他

C
lamm-mit
137
1
Denseconnector V1.5 8B
DenseConnector 是一個開源聊天機器人,基於 LLaMA/Vicuna 微調,並利用 GPT 生成的多模態指令跟隨數據進行訓練。
圖像生成文本
Transformers

D
HuanjinYao
17
7
Cephalo Idefics 2 Vision 8b Alpha
Apache-2.0
Cephalo是一系列專注於多模態材料科學的視覺大語言模型(V-LLMs),旨在整合視覺和語言數據,以促進人機交互或多智能體AI框架中的高級理解和互動。
圖像生成文本
Transformers 其他

C
lamm-mit
150
1
Llava Jp 1.3b V1.1
LLaVA-JP是一個支持日語的多模態視覺語言模型,能夠理解和生成關於輸入圖像的描述和對話。
圖像生成文本
Transformers 日語

L
toshi456
90
11
Image Model
這是一個基於transformers的圖像到文本轉換模型,具體功能需進一步補充
圖像生成文本
Transformers

I
Mouwiya
15
0
Llava Next Mistral 7b 4096
基於LLaVA-v1.6-Mistral-7B模型微調的多模態模型,支持圖像和文本的聯合理解與生成
文本生成圖像
Transformers

L
Mantis-VL
40
2
Llava V1.5 13b Dpo Gguf
LLaVA-v1.5-13B-DPO 是一個基於LLaVA框架的視覺語言模型,經過直接偏好優化(DPO)訓練,並轉換為GGUF量化格式以提高推理效率。
圖像生成文本
L
antiven0m
30
0
Llava V1.6 34b
Apache-2.0
LLaVA是一個開源的多模態聊天機器人,基於大語言模型微調訓練而成,支持圖像和文本的交互。
文本生成圖像
L
liuhaotian
9,033
351
Moe LLaVA StableLM 1.6B 4e
Apache-2.0
MoE-LLaVA是一種基於專家混合架構的大規模視覺語言模型,通過稀疏激活參數實現高效的多模態學習。
文本生成圖像
Transformers

M
LanguageBind
125
8
Tiny Llava V1 Hf
Apache-2.0
TinyLLaVA是一個小型大規模多模態模型框架,專注於視覺語言任務,參數規模小但性能優異。
圖像生成文本
Transformers 支持多種語言

T
bczhou
2,372
57
Kosmos 2 Patch14 224
MIT
Kosmos-2是一個多模態大語言模型,能夠理解和生成與圖像相關的文本描述,並實現文本與圖像區域的關聯。
圖像生成文本
Transformers

K
microsoft
171.99k
162
Llava 7B Lightening V1 1
LLaVA-Lightning-7B是一個基於LLaMA-7B的多模態模型,通過增量參數調整實現高效的視覺-語言任務處理。
大型語言模型
Transformers

L
mmaaz60
1,736
10
Saved Model Git Base
MIT
基於microsoft/git-base在圖像文件夾數據集上微調的視覺語言模型,主要用於圖像描述生成任務
圖像生成文本
Transformers 其他

S
holipori
13
0
Video Blip Opt 2.7b Ego4d
MIT
VideoBLIP是BLIP-2的增強版本,能夠處理視頻數據,採用OPT-2.7b作為語言模型主幹。
視頻生成文本
Transformers 英語

V
kpyu
429
16
Pix2struct Ocrvqa Base
Apache-2.0
Pix2Struct是基於OCR-VQA任務微調的視覺問答模型,能夠解析圖像中的文本內容並回答問題
圖像生成文本
Transformers 支持多種語言

P
google
38
1
- 1
- 2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98