圖像理解

# 圖像理解

Qwen2 VL 2B GGUF

Qwen2-VL-2B 是一個視覺語言模型，提供 GGUF 格式的量化版本，適用於多種場景。

文本生成圖像

Transformers 英語

Internlm Xcomposer2d5 Ol 7b

InternLM-XComposer2.5-OL是一個支持長時流式視頻與音頻交互的全方位多模態系統。

文本生成圖像

Llava Critic 7b Hf

這是一個與transformers兼容的視覺語言模型，具備圖像理解和文本生成能力

文本生成圖像

LLaVA-Saiga-8b是基於IlyaGusev/saiga_llama3_8b模型開發的視覺-語言模型（VLM），主要適配俄語任務，但仍具備英語處理能力。

圖像生成文本

Transformers 支持多種語言

Paligemma Longprompt V1 Safetensors

實驗性視覺模型，融合關鍵詞標籤與長文本描述生成圖像提示詞

圖像生成文本

Llava Calm2 Siglip

llava-calm2-siglip 是一個實驗性的視覺語言模型，能夠用日語和英語回答關於圖像的問題。

圖像生成文本

Transformers 支持多種語言

Paligemma 3B Chat V0.2

基於google/paligemma-3b-mix-448微調的多模態對話模型，專為多輪對話場景優化

文本生成圖像

Transformers 支持多種語言

Paligemma Vqav2

該模型是基於google/paligemma-3b-pt-224在VQAv2數據集的一小部分上進行微調的版本，專注於視覺問答任務。

文本生成圖像

Llava Llama 3 8b V1 1 GGUF

基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型，支持圖像轉文本任務

圖像生成文本

Llava Phi 3 Mini Hf

基於Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型，支持圖像轉文本任務

圖像生成文本

Blip Finetuned Fashion

該模型是基於Salesforce/blip-vqa-base微調的視覺問答模型，專注於時尚領域

文本生成圖像

Mixtral AI Vision 128k 7b

一個結合視覺與語言能力的多模態模型，通過合併方法實現圖像與文本交互功能

圖像生成文本

Transformers 英語

Eris PrimeV3 Vision 7B

Eris Prime V2是一個7B參數規模的多模態語言模型，支持視覺功能，需配合Koboldcpp使用。

文本生成圖像

ChaoticNeutrals

Vit Medium Patch16 Clip 224.tinyclip Yfcc15m

基於ViT架構的CLIP模型，用於零樣本圖像分類任務

Candle Llava V1.6 Mistral 7b

LLaVA 是一個視覺語言模型，能夠理解和生成與圖像相關的文本內容。

圖像生成文本

TeCoA是基於OpenAI CLIP初始化的視覺語言模型，通過監督式對抗微調提升魯棒性

文本生成圖像

Llava V1.6 Vicuna 13b Gguf

LLaVA是基於Transformer架構的開源多模態聊天機器人，通過量化技術提供多種體積與質量平衡的模型版本。

圖像生成文本

Ggml Llava V1.5 7b

LLaVA 是一個視覺語言模型，能夠理解和生成與圖像相關的文本內容。

圖像生成文本

Pix2struct Vizwizvqa Base

這是一個基於Apache-2.0許可證的視覺問答模型，支持英文語言，專注於處理視覺相關的問答任務。

文本生成圖像

Transformers 英語

Llava V1.5 13B GPTQ

Llava v1.5 13B是由Haotian Liu開發的多模態模型，結合了視覺和語言能力，能夠理解和生成基於圖像和文本的內容。

文本生成圖像

Finetuned Git Large Chest Xrays

一個基於MIT許可證的視覺語言模型，專注於從圖像生成文本描述。

Transformers 支持多種語言

Mplug Owl Llama 7b

mPLUG-Owl是一個多模態大語言模型，基於LLaMA-7B架構，支持圖像理解和文本生成任務。

圖像生成文本

Transformers 英語

Taiyi BLIP 750M Chinese

一個專注於將圖像內容轉換為文本描述的模型，支持中文處理。

Transformers 中文

基於未知數據集微調的BEiT基礎模型，具體用途和性能信息暫不可用

大型語言模型

Upernet Convnext Large

UperNet是一個語義分割框架，結合ConvNeXt大型骨幹網絡，用於像素級語義標籤預測。

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase