多模態問答

# 多模態問答

Llava 1.5 7b Hf Q4 K M GGUF

該模型是基於llava-hf/llava-1.5-7b-hf轉換的GGUF格式模型，支持圖像文本生成任務。

圖像生成文本英語

Docscopeocr 7B 050425 Exp

docscopeOCR-7B-050425-exp 是基於 Qwen/Qwen2.5-VL-7B-Instruct 微調的模型，專注於文檔級 OCR、長上下文視覺語言理解和數學 LaTeX 格式的精確圖像到文本轉換。

圖像生成文本

Transformers 支持多種語言

Videochat R1 7B Caption

VideoChat-R1_7B_caption 是一個基於 Qwen2-VL-7B-Instruct 的多模態視頻文本生成模型，專注於視頻內容理解和描述生成。

視頻生成文本

Transformers 英語

ViCA-7B是一款專為室內視頻環境中的視覺空間推理而微調的視覺語言模型，基於LLaVA-Video-7B-Qwen2架構構建，使用ViCA-322K數據集進行訓練，強調結構化空間標註和基於指令的複雜推理任務。

視頻生成文本

Transformers 英語

VL Rethinker 7B Mlx 4bit

VL-Rethinker-7B 4位MLX量化版是基於TIGER-Lab/VL-Rethinker-7B模型的量化版本，專為蘋果設備優化，支持視覺問答任務。

文本生成圖像英語

基於ViLT架構的視覺語言模型，專為GQA視覺推理任務微調

文本生成圖像

VL Rethinker 7B 6bit

這是一個基於Qwen2.5-VL-7B-Instruct的多模態模型，支持視覺問答任務，已轉換為MLX格式以便在Apple芯片上高效運行。

文本生成圖像

Transformers 英語

VL Rethinker 7B 8bit

VL-Rethinker-7B-8bit 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態模型，支持視覺問答任務。

文本生成圖像

Transformers 英語

VL Rethinker 7B Fp16

該模型是基於Qwen2.5-VL-7B-Instruct轉換而來的多模態視覺語言模型，支持視覺問答任務。

文本生成圖像

Transformers 英語

VL Rethinker 72B 8bit

該模型是基於Qwen2.5-VL-7B-Instruct轉換而來的多模態視覺語言模型，支持8位量化，適用於視覺問答任務。

文本生成圖像

Transformers 英語

VL Rethinker 72B 4bit

VL-Rethinker-72B-4bit是一個基於Qwen2.5-VL-7B-Instruct的多模態模型，支持視覺問答任務，已轉換為MLX格式以便在蘋果設備上高效運行。

文本生成圖像

Transformers 英語

Gemma 3 4b It Abliterated Q4 0 GGUF

該模型是mlabonne/gemma-3-4b-it-abliterated的GGUF格式轉換版本，結合了x-ray_alpha的視覺組件，提供更流暢的多模態體驗。

圖像生成文本

LLaVAction是一個面向動作識別的多模態大語言模型評估與訓練框架，基於Qwen2語言模型架構，支持第一人稱視角視頻理解。

視頻生成文本

Transformers 英語

MLAdaptiveIntelligence

Tinyllava Video Qwen2.5 3B Group 16 512

TinyLLaVA-Video是基於Qwen2.5-3B和siglip-so400m-patch14-384構建的視頻理解模型，採用分組重採樣器處理視頻幀

視頻生成文本

Videochat Flash Qwen2 5 7B InternVideo2 1B

基於InternVideo2-1B和Qwen2.5-7B構建的多模態視頻文本模型，每幀僅使用16個標記，支持長達10,000幀的輸入序列。

文本生成視頻

Transformers 英語

Asagi-8B是一個大規模的日語視覺與語言模型（VLM），基於廣泛的日語數據集訓練，整合了多樣化的數據來源。

圖像生成文本

Transformers 日語

Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224

DeepSeer是基於DeepSeek-R1模型開發的視覺語言模型，支持思維鏈推理能力，通過對話模板訓練視覺模型。

圖像生成文本

mehmetkeremturkcan

Erax VL 7B V2.0 Preview I1 GGUF

這是對EraX-VL-7B-V2.0-Preview模型進行加權/重要性矩陣量化的結果，提供多種量化版本以適應不同需求

圖像生成文本支持多種語言

Videochat Flash Qwen2 7B Res224

基於UMT-L和Qwen2-7B構建的多模態模型，支持長視頻理解，每幀僅使用16個標記，上下文窗口擴展至128k。

視頻生成文本

Transformers 英語

Videochat Flash Qwen2 5 2B Res448

VideoChat-Flash-2B是基於UMT-L（300M）和Qwen2.5-1.5B構建的多模態模型，支持視頻文本轉文本任務，僅使用每幀16個標記，並擴展上下文窗口至128k。

視頻生成文本

Transformers 英語

Erax VL 7B V2.0 Preview

EraX-VL-7B-V2.0-Preview是一款強大的多模態模型，專為OCR和視覺問答設計，擅長處理越南語等多種語言，在醫療表格、發票等文檔識別上表現突出。

圖像生成文本

Transformers 支持多種語言

基於微軟Phi-1.5架構的視覺語言模型，結合CLIP實現圖像處理能力

圖像生成文本

Transformers 支持多種語言

VideoRefer-7B是一個多模態大語言模型，專注於視頻問答任務，能夠理解和分析視頻中的時空物體關係。

文本生成視頻

Transformers 英語

LLaVA-SpaceSGG是基於LLaVA-v1.5-13b的視覺問答模型，專注於場景圖生成任務，能夠理解圖像內容並生成結構化場景描述。

文本生成圖像

Safetensors 英語

Longvu Qwen2 7B

LongVU是基於Qwen2-7B的多模態模型，專注於長視頻語言理解任務，採用時空自適應壓縮技術。

視頻生成文本

基於InternVL-Chat-V1-5微調的多模態模型，在MMBench基準測試中表現優異

圖像生成文本

Idefics3 8B Llama3

Idefics3是一個開源的多模態模型，能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。

圖像生成文本

Transformers 英語

Table Llava V1.5 7b

Table LLaVA 7B 是一款開源多模態聊天機器人，專為理解各類表格圖像並完成多樣化表格相關任務而設計。

圖像生成文本

Transformers 英語

Idefics2 8b Chatty

Idefics2 是一個開放的多模態模型，能夠接受任意序列的圖像和文本輸入並生成文本輸出。該模型可以回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事，或僅作為純語言模型使用。

圖像生成文本

Transformers 英語

Idefics2 是一個開源的多模態模型，能夠接受任意序列的圖像和文本輸入並生成文本輸出。它在 OCR、文檔理解和視覺推理方面有顯著提升。

圖像生成文本

Transformers 英語

Idefics2 8b Base

Idefics2 是 Hugging Face 開發的開源多模態模型，能夠處理圖像和文本輸入並生成文本輸出，在 OCR、文檔理解和視覺推理方面表現優異。

圖像生成文本

Transformers 英語

Heron Chat Git Ja Stablelm Base 7b V1

一款能夠就輸入圖像進行對話的視覺語言模型，支持日語交互

圖像生成文本

Transformers 日語

Llava-Phi2是基於Phi2的多模態實現，結合了視覺和語言處理能力，適用於圖像文本到文本的任務。

圖像生成文本

Transformers 英語

猴模型是一種大型多模態模型，通過提升圖像分辨率和改進文本標籤方法，在多項視覺任務中表現優異。

圖像生成文本

ChatTruth-7B是基於Qwen-VL架構優化的多語言視覺-語言模型，增強了大分辨率圖像處理能力並引入還原模塊降低計算開銷

圖像生成文本

Transformers 支持多種語言

Heron Chat Git Ja Stablelm Base 7b V0

Heron GIT Japanese StableLM Base 7B 是一個能夠就輸入圖像進行對話的視覺語言模型。

圖像生成文本

Transformers 日語

IDEFICS是一個開源的多模態模型，能夠處理圖像和文本輸入並生成文本輸出，是Deepmind Flamingo模型的開源復現版本。

圖像生成文本

Transformers 英語

Instructblip Vicuna 13b

InstructBLIP是BLIP-2的視覺指令調優版本，基於Vicuna-13b語言模型，用於視覺語言任務。

圖像生成文本

Transformers 英語

Instructblip Flan T5 Xxl

InstructBLIP是BLIP-2經過視覺指令調優的版本，能夠根據圖像和文本指令生成描述或回答

圖像生成文本

Transformers 英語

Video Blip Flan T5 Xl Ego4d

VideoBLIP是BLIP-2的增強版本，能夠處理視頻數據，採用Flan T5-xl作為語言模型主幹。

視頻生成文本

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase