Qwen2 VL 2B GGUF
Apache-2.0
Qwen2-VL-2B 是一個視覺語言模型,提供 GGUF 格式的量化版本,適用於多種場景。
文本生成圖像
Transformers 英語

Q
tensorblock
314
0
Internlm Xcomposer2d5 Ol 7b
其他
InternLM-XComposer2.5-OL是一個支持長時流式視頻與音頻交互的全方位多模態系統。
文本生成圖像
Safetensors
I
internlm
79
49
Llava Critic 7b Hf
這是一個與transformers兼容的視覺語言模型,具備圖像理解和文本生成能力
文本生成圖像
Transformers

L
FuryMartin
21
1
Llava Saiga 8b
Apache-2.0
LLaVA-Saiga-8b是基於IlyaGusev/saiga_llama3_8b模型開發的視覺-語言模型(VLM),主要適配俄語任務,但仍具備英語處理能力。
圖像生成文本
Transformers 支持多種語言

L
deepvk
205
16
Paligemma Longprompt V1 Safetensors
Gpl-3.0
實驗性視覺模型,融合關鍵詞標籤與長文本描述生成圖像提示詞
圖像生成文本
Transformers

P
mnemic
38
1
Llava Calm2 Siglip
Apache-2.0
llava-calm2-siglip 是一個實驗性的視覺語言模型,能夠用日語和英語回答關於圖像的問題。
圖像生成文本
Transformers 支持多種語言

L
cyberagent
3,930
25
Paligemma 3B Chat V0.2
基於google/paligemma-3b-mix-448微調的多模態對話模型,專為多輪對話場景優化
文本生成圖像
Transformers 支持多種語言

P
BUAADreamer
80
9
Paligemma Vqav2
該模型是基於google/paligemma-3b-pt-224在VQAv2數據集的一小部分上進行微調的版本,專注於視覺問答任務。
文本生成圖像
Transformers

P
merve
168
13
Llava Llama 3 8b V1 1 GGUF
基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型,支持圖像轉文本任務
圖像生成文本
L
MoMonir
138
5
Llava Phi 3 Mini Hf
基於Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型,支持圖像轉文本任務
圖像生成文本
Transformers

L
xtuner
2,322
49
Blip Finetuned Fashion
Bsd-3-clause
該模型是基於Salesforce/blip-vqa-base微調的視覺問答模型,專注於時尚領域
文本生成圖像
Transformers

B
Ornelas
2,281
0
Mixtral AI Vision 128k 7b
MIT
一個結合視覺與語言能力的多模態模型,通過合併方法實現圖像與文本交互功能
圖像生成文本
Transformers 英語

M
LeroyDyer
384
4
Eris PrimeV3 Vision 7B
其他
Eris Prime V2是一個7B參數規模的多模態語言模型,支持視覺功能,需配合Koboldcpp使用。
文本生成圖像
E
ChaoticNeutrals
118
8
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
基於ViT架構的CLIP模型,用於零樣本圖像分類任務
圖像分類
V
timm
144
0
Candle Llava V1.6 Mistral 7b
Apache-2.0
LLaVA 是一個視覺語言模型,能夠理解和生成與圖像相關的文本內容。
圖像生成文本
C
DanielClough
73
0
Tecoa4 Clip
MIT
TeCoA是基於OpenAI CLIP初始化的視覺語言模型,通過監督式對抗微調提升魯棒性
文本生成圖像
T
chs20
51
1
Llava V1.6 Vicuna 13b Gguf
Apache-2.0
LLaVA是基於Transformer架構的開源多模態聊天機器人,通過量化技術提供多種體積與質量平衡的模型版本。
圖像生成文本
L
cjpais
630
9
Ggml Llava V1.5 7b
Apache-2.0
LLaVA 是一個視覺語言模型,能夠理解和生成與圖像相關的文本內容。
圖像生成文本
G
y10ab1
44
2
Pix2struct Vizwizvqa Base
Apache-2.0
這是一個基於Apache-2.0許可證的視覺問答模型,支持英文語言,專注於處理視覺相關的問答任務。
文本生成圖像
Transformers 英語

P
nanom
16
0
Llava V1.5 13B GPTQ
Llava v1.5 13B是由Haotian Liu開發的多模態模型,結合了視覺和語言能力,能夠理解和生成基於圖像和文本的內容。
文本生成圖像
Transformers

L
TheBloke
131
37
Finetuned Git Large Chest Xrays
MIT
一個基於MIT許可證的視覺語言模型,專注於從圖像生成文本描述。
圖像生成
Transformers 支持多種語言

F
daniyal214
15
0
Mplug Owl Llama 7b
Apache-2.0
mPLUG-Owl是一個多模態大語言模型,基於LLaMA-7B架構,支持圖像理解和文本生成任務。
圖像生成文本
Transformers 英語

M
MAGAer13
327
16
Taiyi BLIP 750M Chinese
Apache-2.0
一個專注於將圖像內容轉換為文本描述的模型,支持中文處理。
文字識別
Transformers 中文

T
IDEA-CCNL
180
14
Beitbase
基於未知數據集微調的BEiT基礎模型,具體用途和性能信息暫不可用
大型語言模型
Transformers

B
ivensamdh
15
0
Upernet Convnext Large
MIT
UperNet是一個語義分割框架,結合ConvNeXt大型骨幹網絡,用於像素級語義標籤預測。
圖像分割
Transformers 英語

U
openmmlab
23.09k
0
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98