# 圖像描述生成

Qwen2.5 VL 7B Instruct Gemlite Ao A8w8
Apache-2.0
這是一個經過A8W8量化的多模態大語言模型,基於Qwen2.5-VL-7B-Instruct,支持視覺和語言任務。
圖像生成文本 Transformers
Q
mobiuslabsgmbh
161
1
Devstral Small Vision 2505 GGUF
Apache-2.0
基於Mistral Small模型的視覺編碼器,支持圖像文本生成任務,適配llama.cpp框架
圖像生成文本
D
ngxson
777
20
Blip Gqa Ft
MIT
基於Salesforce/blip2-opt-2.7b微調的視覺語言模型,用於圖像問答任務
文本生成圖像 Transformers
B
phucd
29
0
Blip Custom Captioning
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成等視覺-語言任務
圖像生成文本
B
hiteshsatwani
78
0
Gemma 3 12b It Qat 3bit
其他
這是一個基於 Google Gemma 3-12B 模型轉換而來的 MLX 格式模型,支持圖像文本到文本的任務。
圖像生成文本 Transformers 其他
G
mlx-community
65
1
Gemma 3 4b It Qat 4bit
其他
Gemma 3 4B IT QAT 4bit 是一個經過量化感知訓練(QAT)的4位量化大語言模型,基於Gemma 3架構,專為MLX框架優化。
圖像生成文本 Transformers 其他
G
mlx-community
607
1
My Model
MIT
GIT是一個基於Transformer的圖像到文本生成模型,能夠根據輸入的圖像生成描述性文本。
圖像生成文本 PyTorch 支持多種語言
M
anoushhka
87
0
Florence 2 Base Gpt4 Captioner V1
MIT
基於Florence-2-base-ft微調的GPT4-O風格字幕生成器,用於生成圖像描述
圖像生成文本 Transformers 支持多種語言
F
Vimax97
224
0
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
該模型是基於Qwen2-VL-7B-Captioner-Relaxed轉換的GGUF格式版本,專為圖像轉文本任務優化,支持通過llama.cpp和Koboldcpp等工具運行。
圖像生成文本 英語
Q
r3b31
321
1
Llama Joycaption Alpha Two Hf Llava FP8 Dynamic
MIT
這是對fancyfeast開發的Llama JoyCaption Alpha Two模型進行的FP8壓縮版本,使用llm-compressor工具實現,併兼容vllm框架。
圖像生成文本 英語
L
JKCHSTR
248
1
Blip Image Captioning Large
Bsd-3-clause
基於COCO數據集預訓練的視覺語言模型,擅長生成精準的圖像描述
圖像生成文本
B
drgary
23
1
Florence 2 Base Castollux V0.4
基於microsoft/Florence-2-base微調的圖像描述生成模型,專注於提升描述質量和格式
圖像生成文本 Transformers 英語
F
PJMixers-Images
23
1
Molmo 7B D 0924 NF4
Apache-2.0
Molmo-7B-D-0924的4Bit量化版本,通過NF4量化策略降低顯存佔用,適用於顯存受限環境。
圖像生成文本 Transformers
M
Scoolar
1,259
1
Llava Llama3
LLaVA-Llama3是基於Llama-3的多模態模型,支持圖像與文本的聯合處理。
圖像生成文本
L
chatpig
360
1
Qwen2 VL 7B Captioner Relaxed Q4 K M GGUF
Apache-2.0
這是一個基於Qwen2-VL-7B-Captioner-Relaxed模型轉換的GGUF格式模型,專門用於圖像轉文本任務。
圖像生成文本 英語
Q
alecccdd
88
1
Vitucano 1b5 V1
Apache-2.0
ViTucano是原生葡萄牙語預訓練的視覺助手,整合了視覺理解與語言能力,適用於多模態任務。
圖像生成文本 Transformers 其他
V
TucanoBR
37
2
Microsoft Git Base
MIT
GIT是一個基於Transformer的生成式圖像轉文本模型,能夠將視覺內容轉換為文本描述。
圖像生成文本 支持多種語言
M
seckmaster
18
0
BLIP Radiology Model
BLIP 是一個基於 Transformer 的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本 Transformers
B
daliavanilla
16
0
Vit GPT2 Image Captioning
基於ViT-GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本 Transformers
V
mo-thecreator
17
0
Vit GPT2 Image Captioning
基於ViT-GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本 Transformers
V
motheecreator
149
0
Vit GPT2 Image Captioning Model
基於ViT-GPT2架構的圖像描述生成模型,能夠將輸入圖像轉換為描述性文本
圖像生成文本 Transformers
V
motheecreator
142
0
Llama 3.2 11B Vision Instruct Nf4
基於meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本,支持圖像理解和文本生成任務
圖像生成文本 Transformers
L
SeanScripts
658
12
Pixtral 12b Nf4
Apache-2.0
基於Mistral社區Pixtral-12B的4位量化版本,專注於圖像文本到文本任務,支持中文描述生成
圖像生成文本 Transformers
P
SeanScripts
236
20
Tvl Mini 0.1
Apache-2.0
這是基於俄語對Qwen2-VL-2B模型進行的LORA微調版本,支持多模態任務。
圖像生成文本 Transformers 支持多種語言
T
2Vasabi
23
2
Qwen2 Vl Tiny Random
這是一個基於Qwen2-VL-7B-Instruct配置隨機初始化的小型調試模型,用於視覺語言任務
圖像生成文本 Transformers
Q
yujiepan
27
1
Moondream Caption
Apache-2.0
基於Moondream2的定製小型視覺模型,專為圖像描述生成任務微調
圖像生成文本 Transformers
M
wraps
108
9
Base ZhEn
該模型用於將圖像內容轉換為文本描述,適用於非商業用途。
文字識別
B
MixTex
50
0
Peacock
其他
孔雀模型是基於InstructBLIP架構的阿拉伯語多模態大語言模型,其語言模型採用AraLLaMA。
圖像生成文本 PyTorch 阿拉伯語
P
UBC-NLP
73
1
Idefics3 8B Llama3
Apache-2.0
Idefics3是一個開源的多模態模型,能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。
圖像生成文本 Transformers 英語
I
HuggingFaceM4
45.86k
277
Llama 3 EZO VLM 1
基於 Llama-3-8B-Instruct 的日語視覺語言模型,通過額外預訓練和指令調優增強日語能力
圖像生成文本 日語
L
AXCXEPT
19
7
Zcabnzh Bp
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長圖像描述生成和視覺問答等任務,通過創新的數據過濾機制提升性能
圖像生成文本 Transformers
Z
nanxiz
19
0
Florence 2 Large Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的範式處理各類視覺與視覺-語言任務。
圖像生成文本 Transformers
F
zhangfaen
14
0
Florence 2 SD3 Captioner
Apache-2.0
Florence-2-SD3-Captioner 是一個基於 Florence-2 架構的圖像描述生成模型,專門用於生成高質量的圖像描述文本。
圖像生成文本 Transformers 支持多種語言
F
gokaygokay
80.06k
34
Florence 2 Large Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理各類視覺與視覺-語言任務。
圖像生成文本 Transformers
F
andito
93
4
Test Push
Apache-2.0
distilvit是一個基於VIT圖像編碼器和蒸餾版GPT-2文本解碼器的圖像轉文本模型,能夠生成圖像的文本描述。
圖像生成文本 Transformers
T
tarekziade
17
0
Florence 2 Base Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
圖像生成文本 Transformers
F
lodestones
14
0
Vit Base Patch16 224 Distilgpt2
Apache-2.0
DistilViT 是一個基於視覺Transformer(ViT)和蒸餾版GPT-2的圖像描述生成模型,能夠將圖像轉換為文本描述。
圖像生成文本 Transformers
V
tarekziade
17
0
Convllava JP 1.3b 1280
ConvLLaVA-JP是一款支持高分辨率輸入的日語視覺語言模型,能夠就輸入圖像進行對話。
圖像生成文本 Transformers 日語
C
toshi456
31
1
Image Captioning Vit Gpt2 Flick8k
Apache-2.0
該模型能夠將輸入的圖像轉換為描述性文本,適用於多種場景下的圖像理解任務。
圖像生成文本 Transformers
I
pltnhan311
18
0
Final Model
Apache-2.0
該模型是一個基於Apache-2.0許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
文字識別 Transformers
F
goatrider
17
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase