# 多模態圖像描述

Qwen2.5 VL 7B Captioner Relaxed GGUF
Apache-2.0
Qwen2.5-VL-7B-Captioner-Relaxed 是一個多模態視覺語言模型,基於 Qwen2.5 架構,專注於圖像到文本的生成任務。
圖像生成文本 英語
Q
samgreen
320
1
Qwen2.5 VL 7B Captioner Relaxed
Apache-2.0
基於Qwen2.5-VL-7B-Instruct微調的多模態大語言模型,專為文生圖優化,能生成更詳盡的圖像描述
圖像生成文本 Transformers 英語
Q
Ertugrul
1,339
12
Qwen2.5 VL 3B Instruct MLX 8bits
這是一個基於Qwen2.5-VL-3B-Instruct模型的8位量化版本,專為MLX框架優化,支持圖像文本生成任務。
圖像生成文本 Transformers 英語
Q
moot20
27
1
Qwen2 VL 7B Captioner Relaxed
Apache-2.0
基於Qwen2-VL-7B-Instruct的指令調優版本,專注於生成更詳細的圖像描述,優化用於文本到圖像數據集創建。
圖像生成文本 Transformers 英語
Q
Ertugrul
4,080
53
Blip
Bsd-3-clause
BLIP是一種先進的視覺-語言預訓練模型,擅長圖像描述生成任務,能夠根據圖像內容生成準確的自然語言描述。
圖像生成文本 Transformers
B
upro
19
2
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長圖像描述生成和理解任務,通過引導式標註策略高效利用網絡數據
圖像生成文本 Transformers
B
movementso
18
0
Vinvl Base Image Captioning
Apache-2.0
微軟VinVL基礎預訓練模型,專為圖像描述生成任務設計,具備強大的視覺-語言理解能力。
圖像生成文本
V
michelecafagna26
45
1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase