圖像描述生成

# 圖像描述生成

Qwen2.5 VL 7B Instruct Gemlite Ao A8w8

這是一個經過A8W8量化的多模態大語言模型，基於Qwen2.5-VL-7B-Instruct，支持視覺和語言任務。

圖像生成文本

Devstral Small Vision 2505 GGUF

基於Mistral Small模型的視覺編碼器，支持圖像文本生成任務，適配llama.cpp框架

圖像生成文本

基於Salesforce/blip2-opt-2.7b微調的視覺語言模型，用於圖像問答任務

文本生成圖像

Blip Custom Captioning

BLIP是一個統一的視覺-語言預訓練框架，擅長圖像描述生成等視覺-語言任務

圖像生成文本

Gemma 3 12b It Qat 3bit

這是一個基於 Google Gemma 3-12B 模型轉換而來的 MLX 格式模型，支持圖像文本到文本的任務。

圖像生成文本

Transformers 其他

Gemma 3 4b It Qat 4bit

Gemma 3 4B IT QAT 4bit 是一個經過量化感知訓練（QAT）的4位量化大語言模型，基於Gemma 3架構，專為MLX框架優化。

圖像生成文本

Transformers 其他

GIT是一個基於Transformer的圖像到文本生成模型，能夠根據輸入的圖像生成描述性文本。

圖像生成文本

PyTorch 支持多種語言

Florence 2 Base Gpt4 Captioner V1

基於Florence-2-base-ft微調的GPT4-O風格字幕生成器，用於生成圖像描述

圖像生成文本

Transformers 支持多種語言

Qwen2 VL 7B Captioner Relaxed GGUF

該模型是基於Qwen2-VL-7B-Captioner-Relaxed轉換的GGUF格式版本，專為圖像轉文本任務優化，支持通過llama.cpp和Koboldcpp等工具運行。

圖像生成文本英語

Llama Joycaption Alpha Two Hf Llava FP8 Dynamic

這是對fancyfeast開發的Llama JoyCaption Alpha Two模型進行的FP8壓縮版本，使用llm-compressor工具實現，併兼容vllm框架。

圖像生成文本英語

Blip Image Captioning Large

基於COCO數據集預訓練的視覺語言模型，擅長生成精準的圖像描述

圖像生成文本

Florence 2 Base Castollux V0.4

基於microsoft/Florence-2-base微調的圖像描述生成模型，專注於提升描述質量和格式

圖像生成文本

Transformers 英語

PJMixers-Images

Molmo 7B D 0924 NF4

Molmo-7B-D-0924的4Bit量化版本，通過NF4量化策略降低顯存佔用，適用於顯存受限環境。

圖像生成文本

LLaVA-Llama3是基於Llama-3的多模態模型，支持圖像與文本的聯合處理。

圖像生成文本

Qwen2 VL 7B Captioner Relaxed Q4 K M GGUF

這是一個基於Qwen2-VL-7B-Captioner-Relaxed模型轉換的GGUF格式模型，專門用於圖像轉文本任務。

圖像生成文本英語

Vitucano 1b5 V1

ViTucano是原生葡萄牙語預訓練的視覺助手，整合了視覺理解與語言能力，適用於多模態任務。

圖像生成文本

Transformers 其他

Microsoft Git Base

GIT是一個基於Transformer的生成式圖像轉文本模型，能夠將視覺內容轉換為文本描述。

圖像生成文本支持多種語言

BLIP Radiology Model

BLIP 是一個基於 Transformer 的圖像描述生成模型，能夠為輸入圖像生成自然語言描述。

圖像生成文本

Vit GPT2 Image Captioning

基於ViT-GPT2架構的圖像描述生成模型，能夠為輸入的圖像生成自然語言描述。

圖像生成文本

Vit GPT2 Image Captioning

基於ViT-GPT2架構的圖像描述生成模型，能夠為輸入的圖像生成自然語言描述。

圖像生成文本

Vit GPT2 Image Captioning Model

基於ViT-GPT2架構的圖像描述生成模型，能夠將輸入圖像轉換為描述性文本

圖像生成文本

Llama 3.2 11B Vision Instruct Nf4

基於meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本，支持圖像理解和文本生成任務

圖像生成文本

Pixtral 12b Nf4

基於Mistral社區Pixtral-12B的4位量化版本，專注於圖像文本到文本任務，支持中文描述生成

圖像生成文本

這是基於俄語對Qwen2-VL-2B模型進行的LORA微調版本，支持多模態任務。

圖像生成文本

Transformers 支持多種語言

Qwen2 Vl Tiny Random

這是一個基於Qwen2-VL-7B-Instruct配置隨機初始化的小型調試模型，用於視覺語言任務

圖像生成文本

Moondream Caption

基於Moondream2的定製小型視覺模型，專為圖像描述生成任務微調

圖像生成文本

該模型用於將圖像內容轉換為文本描述，適用於非商業用途。

孔雀模型是基於InstructBLIP架構的阿拉伯語多模態大語言模型，其語言模型採用AraLLaMA。

圖像生成文本

PyTorch 阿拉伯語

Idefics3 8B Llama3

Idefics3是一個開源的多模態模型，能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。

圖像生成文本

Transformers 英語

Llama 3 EZO VLM 1

基於 Llama-3-8B-Instruct 的日語視覺語言模型，通過額外預訓練和指令調優增強日語能力

圖像生成文本日語

BLIP是一個統一的視覺語言預訓練框架，擅長圖像描述生成和視覺問答等任務，通過創新的數據過濾機制提升性能

圖像生成文本

Florence 2 Large Ft

Florence-2是微軟開發的先進視覺基礎模型，採用基於提示的範式處理各類視覺與視覺-語言任務。

圖像生成文本

Florence 2 SD3 Captioner

Florence-2-SD3-Captioner 是一個基於 Florence-2 架構的圖像描述生成模型，專門用於生成高質量的圖像描述文本。

圖像生成文本

Transformers 支持多種語言

Florence 2 Large Ft

Florence-2是微軟開發的先進視覺基礎模型，採用基於提示的方法處理各類視覺與視覺-語言任務。

圖像生成文本

distilvit是一個基於VIT圖像編碼器和蒸餾版GPT-2文本解碼器的圖像轉文本模型，能夠生成圖像的文本描述。

圖像生成文本

Florence 2 Base Ft

Florence-2是微軟開發的先進視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺語言任務。

圖像生成文本

Vit Base Patch16 224 Distilgpt2

DistilViT 是一個基於視覺Transformer(ViT)和蒸餾版GPT-2的圖像描述生成模型，能夠將圖像轉換為文本描述。

圖像生成文本

Convllava JP 1.3b 1280

ConvLLaVA-JP是一款支持高分辨率輸入的日語視覺語言模型，能夠就輸入圖像進行對話。

圖像生成文本

Transformers 日語

Image Captioning Vit Gpt2 Flick8k

該模型能夠將輸入的圖像轉換為描述性文本，適用於多種場景下的圖像理解任務。

圖像生成文本

該模型是一個基於Apache-2.0許可證的圖像轉文本模型，能夠將圖像內容轉換為文本描述。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase