Qwen2.5 VL 7B Instruct Gemlite Ao A8w8
Apache-2.0
這是一個經過A8W8量化的多模態大語言模型,基於Qwen2.5-VL-7B-Instruct,支持視覺和語言任務。
圖像生成文本
Transformers

Q
mobiuslabsgmbh
161
1
Devstral Small Vision 2505 GGUF
Apache-2.0
基於Mistral Small模型的視覺編碼器,支持圖像文本生成任務,適配llama.cpp框架
圖像生成文本
D
ngxson
777
20
Blip Gqa Ft
MIT
基於Salesforce/blip2-opt-2.7b微調的視覺語言模型,用於圖像問答任務
文本生成圖像
Transformers

B
phucd
29
0
Blip Custom Captioning
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成等視覺-語言任務
圖像生成文本
B
hiteshsatwani
78
0
Gemma 3 12b It Qat 3bit
其他
這是一個基於 Google Gemma 3-12B 模型轉換而來的 MLX 格式模型,支持圖像文本到文本的任務。
圖像生成文本
Transformers 其他

G
mlx-community
65
1
Gemma 3 4b It Qat 4bit
其他
Gemma 3 4B IT QAT 4bit 是一個經過量化感知訓練(QAT)的4位量化大語言模型,基於Gemma 3架構,專為MLX框架優化。
圖像生成文本
Transformers 其他

G
mlx-community
607
1
My Model
MIT
GIT是一個基於Transformer的圖像到文本生成模型,能夠根據輸入的圖像生成描述性文本。
圖像生成文本
PyTorch 支持多種語言
M
anoushhka
87
0
Florence 2 Base Gpt4 Captioner V1
MIT
基於Florence-2-base-ft微調的GPT4-O風格字幕生成器,用於生成圖像描述
圖像生成文本
Transformers 支持多種語言

F
Vimax97
224
0
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
該模型是基於Qwen2-VL-7B-Captioner-Relaxed轉換的GGUF格式版本,專為圖像轉文本任務優化,支持通過llama.cpp和Koboldcpp等工具運行。
圖像生成文本 英語
Q
r3b31
321
1
Llama Joycaption Alpha Two Hf Llava FP8 Dynamic
MIT
這是對fancyfeast開發的Llama JoyCaption Alpha Two模型進行的FP8壓縮版本,使用llm-compressor工具實現,併兼容vllm框架。
圖像生成文本 英語
L
JKCHSTR
248
1
Blip Image Captioning Large
Bsd-3-clause
基於COCO數據集預訓練的視覺語言模型,擅長生成精準的圖像描述
圖像生成文本
B
drgary
23
1
Florence 2 Base Castollux V0.4
基於microsoft/Florence-2-base微調的圖像描述生成模型,專注於提升描述質量和格式
圖像生成文本
Transformers 英語

F
PJMixers-Images
23
1
Molmo 7B D 0924 NF4
Apache-2.0
Molmo-7B-D-0924的4Bit量化版本,通過NF4量化策略降低顯存佔用,適用於顯存受限環境。
圖像生成文本
Transformers

M
Scoolar
1,259
1
Llava Llama3
LLaVA-Llama3是基於Llama-3的多模態模型,支持圖像與文本的聯合處理。
圖像生成文本
L
chatpig
360
1
Qwen2 VL 7B Captioner Relaxed Q4 K M GGUF
Apache-2.0
這是一個基於Qwen2-VL-7B-Captioner-Relaxed模型轉換的GGUF格式模型,專門用於圖像轉文本任務。
圖像生成文本 英語
Q
alecccdd
88
1
Vitucano 1b5 V1
Apache-2.0
ViTucano是原生葡萄牙語預訓練的視覺助手,整合了視覺理解與語言能力,適用於多模態任務。
圖像生成文本
Transformers 其他

V
TucanoBR
37
2
Microsoft Git Base
MIT
GIT是一個基於Transformer的生成式圖像轉文本模型,能夠將視覺內容轉換為文本描述。
圖像生成文本 支持多種語言
M
seckmaster
18
0
BLIP Radiology Model
BLIP 是一個基於 Transformer 的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

B
daliavanilla
16
0
Vit GPT2 Image Captioning
基於ViT-GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本
Transformers

V
mo-thecreator
17
0
Vit GPT2 Image Captioning
基於ViT-GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本
Transformers

V
motheecreator
149
0
Vit GPT2 Image Captioning Model
基於ViT-GPT2架構的圖像描述生成模型,能夠將輸入圖像轉換為描述性文本
圖像生成文本
Transformers

V
motheecreator
142
0
Llama 3.2 11B Vision Instruct Nf4
基於meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本,支持圖像理解和文本生成任務
圖像生成文本
Transformers

L
SeanScripts
658
12
Pixtral 12b Nf4
Apache-2.0
基於Mistral社區Pixtral-12B的4位量化版本,專注於圖像文本到文本任務,支持中文描述生成
圖像生成文本
Transformers

P
SeanScripts
236
20
Tvl Mini 0.1
Apache-2.0
這是基於俄語對Qwen2-VL-2B模型進行的LORA微調版本,支持多模態任務。
圖像生成文本
Transformers 支持多種語言

T
2Vasabi
23
2
Qwen2 Vl Tiny Random
這是一個基於Qwen2-VL-7B-Instruct配置隨機初始化的小型調試模型,用於視覺語言任務
圖像生成文本
Transformers

Q
yujiepan
27
1
Moondream Caption
Apache-2.0
基於Moondream2的定製小型視覺模型,專為圖像描述生成任務微調
圖像生成文本
Transformers

M
wraps
108
9
Base ZhEn
該模型用於將圖像內容轉換為文本描述,適用於非商業用途。
文字識別
B
MixTex
50
0
Peacock
其他
孔雀模型是基於InstructBLIP架構的阿拉伯語多模態大語言模型,其語言模型採用AraLLaMA。
圖像生成文本
PyTorch 阿拉伯語
P
UBC-NLP
73
1
Idefics3 8B Llama3
Apache-2.0
Idefics3是一個開源的多模態模型,能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。
圖像生成文本
Transformers 英語

I
HuggingFaceM4
45.86k
277
Llama 3 EZO VLM 1
基於 Llama-3-8B-Instruct 的日語視覺語言模型,通過額外預訓練和指令調優增強日語能力
圖像生成文本 日語
L
AXCXEPT
19
7
Zcabnzh Bp
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長圖像描述生成和視覺問答等任務,通過創新的數據過濾機制提升性能
圖像生成文本
Transformers

Z
nanxiz
19
0
Florence 2 Large Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的範式處理各類視覺與視覺-語言任務。
圖像生成文本
Transformers

F
zhangfaen
14
0
Florence 2 SD3 Captioner
Apache-2.0
Florence-2-SD3-Captioner 是一個基於 Florence-2 架構的圖像描述生成模型,專門用於生成高質量的圖像描述文本。
圖像生成文本
Transformers 支持多種語言

F
gokaygokay
80.06k
34
Florence 2 Large Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理各類視覺與視覺-語言任務。
圖像生成文本
Transformers

F
andito
93
4
Test Push
Apache-2.0
distilvit是一個基於VIT圖像編碼器和蒸餾版GPT-2文本解碼器的圖像轉文本模型,能夠生成圖像的文本描述。
圖像生成文本
Transformers

T
tarekziade
17
0
Florence 2 Base Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
圖像生成文本
Transformers

F
lodestones
14
0
Vit Base Patch16 224 Distilgpt2
Apache-2.0
DistilViT 是一個基於視覺Transformer(ViT)和蒸餾版GPT-2的圖像描述生成模型,能夠將圖像轉換為文本描述。
圖像生成文本
Transformers

V
tarekziade
17
0
Convllava JP 1.3b 1280
ConvLLaVA-JP是一款支持高分辨率輸入的日語視覺語言模型,能夠就輸入圖像進行對話。
圖像生成文本
Transformers 日語

C
toshi456
31
1
Image Captioning Vit Gpt2 Flick8k
Apache-2.0
該模型能夠將輸入的圖像轉換為描述性文本,適用於多種場景下的圖像理解任務。
圖像生成文本
Transformers

I
pltnhan311
18
0
Final Model
Apache-2.0
該模型是一個基於Apache-2.0許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
文字識別
Transformers

F
goatrider
17
0
- 1
- 2
- 3
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98