多模態對話

# 多模態對話

Spatial LLaVA 7B Gguf

Spatial-LLaVA-7B是基於LLaVA模型微調的多模態模型，專注於提升空間關係推理能力，適用於多模態研究和聊天機器人開發。

文本生成圖像

Qwen3 8B NEO Imatrix Max GGUF

基於Qwen3-8B模型的NEO Imatrix量化版本，支持32K長上下文和增強推理能力

大型語言模型

VL Rethinker 72B Mlx 4bit

VL-Rethinker-72B的4位量化版本，適用於蘋果設備的MLX框架，支持視覺問答任務。

文本生成圖像英語

Gemma 3 12b It GPTQ 4b 128g

該模型是對google/gemma-3-12b-it進行INT4量化的版本，通過GPTQ算法將參數從16比特降至4比特，顯著減少了磁盤空間和GPU內存需求。

圖像生成文本

Vora 7B Instruct

VoRA是一個基於7B參數的視覺-語言模型，專注於圖像文本到文本的轉換任務。

圖像生成文本

VoRA是一個基於7B參數的視覺語言模型，能夠處理圖像和文本輸入，生成文本輸出。

圖像生成文本

Qwen2.5 VL 7B Instruct Q4 K M GGUF

這是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本，適用於多模態任務，支持圖像和文本輸入。

圖像生成文本英語

Q-SiT Mini是一個輕量級的圖像質量評估與對話模型，專注於圖像質量分析和評分。

圖像生成文本

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video-7B-hf 是一個基於視頻的多模態模型，能夠處理視頻和文本輸入，生成文本輸出。

視頻生成文本

Safetensors 英語

Internvl2 5 4B AWQ

InternVL2_5-4B-AWQ 是使用 autoawq 對 InternVL2_5-4B 進行 AWQ 量化的版本，支持多語言和多模態任務。

圖像生成文本

Transformers 其他

Qwen2.5 VL 7B Instruct GPTQ Int4

Qwen2.5-VL-7B-Instruct-GPTQ-Int4是基於Qwen2.5-VL-7B-Instruct模型進行非官方GPTQ-Int4量化的版本，支持圖文到文本的多模態任務。

圖像生成文本

Transformers 支持多種語言

Internvl 2 5 HiCo R64

基於長且豐富的上下文（LRC）建模增強的視頻多模態大語言模型，通過提升感知細粒度細節和捕捉長時態結構的能力改進現有MLLM

視頻生成文本

Transformers 英語

Internlm Xcomposer2d5 7b Chat

InternLM-XComposer2.5-Chat是基於InternLM-XComposer2.5-7B訓練的對話模型，在多模態指令跟隨和開放式對話能力方面有顯著提升。

文本生成圖像

QVQ 72B Preview Abliterated GPTQ Int8

這是QVQ-72B-Preview-abliterated模型的GPTQ量化8位版本，支持圖像文本到文本的轉換任務。

圖像生成文本

Transformers 英語

Apollo LMMs Apollo 7B T32

Apollo是一系列專注於視頻理解的大型多模態模型，擅長處理長達一小時的視頻內容，支持複雜視頻問答和多輪對話。

視頻生成文本

Transformers 英語

Apollo LMMs Apollo 1 5B T32

Apollo 是一系列專注於視頻理解的大型多模態模型，擅長處理長視頻內容理解、時序推理和複雜視頻問答等任務。

視頻生成文本

Llama3.1 Typhoon2 Audio 8b Instruct

颱風2-音頻版是一個端到端的語音轉語音模型架構，能夠處理音頻、語音和文本輸入，並同時生成文本和語音輸出。該模型專門針對泰語優化，同時也支持英語。

文本生成音頻

Transformers 支持多種語言

Mini InternVL2 1B DA DriveLM

Mini-InternVL2-DA-RS是針對遙感圖像領域優化的多模態模型，基於Mini-InternVL架構，通過領域適配框架微調，在遙感圖像理解任務上表現優異。

圖像生成文本

Transformers 其他

VARCO VISION 14B HF

VARCO-VISION-14B是一款強大的英韓視覺語言模型，支持圖像和文本輸入，生成文本輸出，具備定位、指代和OCR功能。

圖像生成文本

Transformers 支持多種語言

ChatRex是一款擅長感知的多模態大語言模型，能在回答問題的同時將答案關聯到具體對象。

圖像生成文本

Safetensors 英語

GLM-Edge-V-5B是一個50億參數的多模態模型，支持圖像和文本輸入，能夠執行圖像理解和文本生成任務。

圖像生成文本

GLM-Edge-V-2B是一個基於Pytorch框架的圖像文本到文本模型，支持中文處理。

圖像生成文本

MMDuet是一個支持視頻播放時即時交互的VideoLLM模型，專注於時間敏感的視頻理解任務。

視頻生成文本英語

Aria Sequential Mlp Bnb Nf4

基於Aria-sequential_mlp的BitsAndBytes NF4量化版本，適用於圖像文本到文本任務，顯存需求約15.5 GB。

圖像生成文本

Aria Sequential Mlp FP8 Dynamic

基於Aria-sequential_mlp的FP8動態量化模型，適用於圖像文本到文本任務，顯存需求約30GB。

圖像生成文本

Mplug Owl3 1B 241014

mPLUG-Owl3 是一款先進的多模態大語言模型，專注於解決長圖像序列理解的挑戰，通過超注意力機制顯著提升處理速度和序列長度。

文本生成圖像英語

Mplug Owl3 2B 241014

mPLUG-Owl3 是一款先進的多模態大語言模型，專注於解決長圖像序列理解的挑戰，通過超注意力機制顯著提升處理速度和序列長度。

文本生成圖像

Safetensors 英語

Videochat2 HD Stage4 Mistral 7B Hf

VideoChat2-HD-hf是一個基於Mistral-7B的多模態視頻理解模型，專注於視頻文本轉換任務。

視頻生成文本

Qwen2 Vl Tiny Random

這是一個基於Qwen2-VL-7B-Instruct配置隨機初始化的小型調試模型，用於視覺語言任務

圖像生成文本

Qwen2 Audio 7B Instruct 4bit

這是Qwen2-Audio-7B-Instruct的4位量化版本，基於阿里巴巴雲原版Qwen模型開發，是一個音頻-文本多模態大語言模型。

音頻生成文本

Internvideo2 Chat 8B InternLM2 5

InternVideo2-Chat-8B-InternLM2.5是一個視頻-文本多模態模型，通過整合InternVideo2視頻編碼器與大型語言模型(LLM)來增強視頻理解和人機交互能力。

視頻生成文本

Mplug Owl3 7B 240728

mPLUG-Owl3 是一款前沿的多模態大語言模型，專為解決長圖像序列理解難題而設計，支持處理單圖、多圖和視頻任務。

文本生成圖像英語

Banban Beta V2 Gguf

AI虛擬主播闆闆模型，專為NTNU VLSI社團設計的虛擬主播助手，具有圖像文本到文本的能力。

圖像生成文本支持多種語言

Internvideo2 Chat 8B HD

InternVideo2-Chat-8B-HD 是一個結合了大型語言模型和視頻BLIP的視頻理解模型，通過漸進式學習方案構建，能夠處理高清視頻輸入。

視頻生成文本

LLaVA-Saiga-8b是基於IlyaGusev/saiga_llama3_8b模型開發的視覺-語言模型（VLM），主要適配俄語任務，但仍具備英語處理能力。

圖像生成文本

Transformers 支持多種語言

Tinyllava 1.1b V0.1

基於TinyLlama-1.1B的輕量級視覺問答模型，通過BakLlava代碼庫訓練而成，支持圖像內容理解和問答任務。

文本生成圖像

Llava Calm2 Siglip

llava-calm2-siglip 是一個實驗性的視覺語言模型，能夠用日語和英語回答關於圖像的問題。

圖像生成文本

Transformers 支持多種語言

Paligemma 3B Chat V0.2

基於google/paligemma-3b-mix-448微調的多模態對話模型，專為多輪對話場景優化

文本生成圖像

Transformers 支持多種語言

Vision 8B MiniCPM 2 5 Uncensored And Detailed 4bit

MiniCPM-Llama3-V 2.5 的 int4 量化版本，顯著降低 GPU 顯存佔用（約 9GB）

文本生成圖像

Cogvlm2 Llama3 Chat 19B Int4

CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態對話模型，支持中英文，具備8K上下文長度和1344*1344分辨率圖像處理能力。

文本生成圖像

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase