多模態視覺理解

# 多模態視覺理解

Gemma 3 12b It Quantized.w8a8

基於google/gemma-3-12b-it的INT8量化版本，支持視覺文本輸入和文本輸出，適用於高效推理部署

圖像生成文本

Qwen2.5 VL 3B Instruct GGUF

Qwen2.5-VL是Qwen家族的最新視覺語言模型，具備強大的視覺理解和多模態處理能力。

圖像生成文本英語

PE Lang G14 448

感知編碼器是通過視覺語言訓練實現的最先進圖像視頻理解編碼器，具有強大的泛化能力。

文本生成圖像

PE Lang L14 448

感知編碼器（PE）是一種通過視覺-語言學習訓練而成的先進圖像與視頻理解編碼器，在多種視覺任務上具有最先進性能。

文本生成圖像

Qwen2.5-VL-32B-Instruct是Qwen家族的最新視覺語言模型，具備強大的視覺理解和智能代理能力，支持多模態任務處理。

圖像生成文本

Transformers 支持多種語言

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct 是一個多模態視覺語言模型，支持圖像理解和文本生成任務。

圖像生成文本英語

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新視覺語言模型，具備強大的多模態理解和生成能力，支持圖像、視頻和文本的交互。

文本生成圖像

Transformers 英語

christopherthompson81

Amoral Gemma3 12B Vision

基於soob3123/amoral-gemma3-12B的視覺增強版本，結合了Gemma3-12B大語言模型與視覺編碼器，支持多模態任務

圖像生成文本

Transformers 英語

Qwen2.5 VL Instruct 3B Geo

Qwen2.5-VL是Qwen家族的最新視覺語言模型，專注於增強視覺理解和代理能力。

文本生成圖像

Transformers 英語

Mlabonne Gemma 3 4b It Abliterated GGUF

這是一個基於mlabonne/gemma-3-4b-it-abliterated模型的量化版本，使用llama.cpp進行imatrix量化，適用於圖像文本到文本任務。

圖像生成文本

Toriigate V0.4 7B I1 GGUF

這是對Minthy/ToriiGate-v0.4-7B模型進行的加權/重要性矩陣量化版本，提供多種量化選項以適應不同需求。

圖像生成文本英語

Qwen2.5 VL 72B Instruct AWQ Fix

Qwen2.5-VL 是 Qwen 家族的最新視覺語言模型，具備強大的視覺理解和代理能力，支持多格式視覺定位和結構化輸出生成。

圖像生成文本

Transformers 英語

Qwen2.5 VL 72B Instruct AWQ

Qwen2.5-VL是通義千問團隊推出的多模態大語言模型，具備強大的視覺理解和智能代理能力，支持圖像、視頻、文本等多種輸入格式。

文本生成圖像

Transformers 英語

Qwen2.5 VL 7B Instruct AWQ

Qwen2.5-VL是通義千問推出的多模態視覺語言模型，具備強大的圖像理解和文本生成能力。

圖像生成文本

Transformers 英語

Minicpm O 2 6 Gguf

MiniCPM-o 2.6是一個多模態模型，支持視覺和語言任務，專為llama.cpp設計。

圖像生成文本

Razorback 12B V0.2

Razorback 12B v0.2 是一個結合了Pixtral 12B和UnslopNemo v3優勢的多模態模型，具備視覺理解和語言處理能力。

圖像生成文本

Transformers 支持多種語言

Qwen2 VL 72B Instruct GGUF

Qwen2-VL-72B-Instruct的GGUF量化版本，支持多模態圖像文本到文本轉換，可通過LlamaEdge運行。

圖像生成文本

Transformers 英語

Llama 3.2 90B Vision Instruct Unsloth Bnb 4bit

Meta Llama 3.2系列90B參數的多模態大語言模型，支持視覺指令理解，經Unsloth動態4位量化優化

文本生成圖像

Transformers 英語

Minicpm V 2 6 Rk3588 1.1.4

MiniCPM-V 2.6是支持單圖、多圖和視頻理解的GPT-4V級別多模態大語言模型，專為RK3588 NPU優化

圖像生成文本

Transformers 其他

寒武紀是一個開源的以視覺為核心設計的 multimodal LLM（多模態大語言模型）。

文本生成圖像

Phi 3 Vision 128k Instruct

Phi-3-Vision-128K-Instruct是一個輕量級、前沿的開放多模態模型，支持128K令牌的上下文長度，專注於文本和視覺領域的高質量推理。

圖像生成文本

Transformers 其他

Llava Phi 3 Mini 4k Instruct

結合Phi-3-mini-3.8B大語言模型與LLaVA v1.5的視覺語言模型，提供先進的視覺語言理解能力。

圖像生成文本

Owlv2 Base Patch16

OWLv2是一個基於視覺語言預訓練的模型，專注於對象檢測和定位任務。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase