# 多模態問答

Llava 1.5 7b Hf Q4 K M GGUF
該模型是基於llava-hf/llava-1.5-7b-hf轉換的GGUF格式模型,支持圖像文本生成任務。
圖像生成文本 英語
L
Marwan02
30
1
Docscopeocr 7B 050425 Exp
Apache-2.0
docscopeOCR-7B-050425-exp 是基於 Qwen/Qwen2.5-VL-7B-Instruct 微調的模型,專注於文檔級 OCR、長上下文視覺語言理解和數學 LaTeX 格式的精確圖像到文本轉換。
圖像生成文本 Transformers 支持多種語言
D
prithivMLmods
531
2
Videochat R1 7B Caption
Apache-2.0
VideoChat-R1_7B_caption 是一個基於 Qwen2-VL-7B-Instruct 的多模態視頻文本生成模型,專注於視頻內容理解和描述生成。
視頻生成文本 Transformers 英語
V
OpenGVLab
48
1
Vica
Apache-2.0
ViCA-7B是一款專為室內視頻環境中的視覺空間推理而微調的視覺語言模型,基於LLaVA-Video-7B-Qwen2架構構建,使用ViCA-322K數據集進行訓練,強調結構化空間標註和基於指令的複雜推理任務。
視頻生成文本 Transformers 英語
V
nkkbr
41
0
VL Rethinker 7B Mlx 4bit
Apache-2.0
VL-Rethinker-7B 4位MLX量化版是基於TIGER-Lab/VL-Rethinker-7B模型的量化版本,專為蘋果設備優化,支持視覺問答任務。
文本生成圖像 英語
V
TheCluster
14
0
Vilt Gqa Ft
基於ViLT架構的視覺語言模型,專為GQA視覺推理任務微調
文本生成圖像 Transformers
V
phucd
62
0
VL Rethinker 7B 6bit
Apache-2.0
這是一個基於Qwen2.5-VL-7B-Instruct的多模態模型,支持視覺問答任務,已轉換為MLX格式以便在Apple芯片上高效運行。
文本生成圖像 Transformers 英語
V
mlx-community
19
0
VL Rethinker 7B 8bit
Apache-2.0
VL-Rethinker-7B-8bit 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態模型,支持視覺問答任務。
文本生成圖像 Transformers 英語
V
mlx-community
21
0
VL Rethinker 7B Fp16
Apache-2.0
該模型是基於Qwen2.5-VL-7B-Instruct轉換而來的多模態視覺語言模型,支持視覺問答任務。
文本生成圖像 Transformers 英語
V
mlx-community
17
0
VL Rethinker 72B 8bit
Apache-2.0
該模型是基於Qwen2.5-VL-7B-Instruct轉換而來的多模態視覺語言模型,支持8位量化,適用於視覺問答任務。
文本生成圖像 Transformers 英語
V
mlx-community
18
0
VL Rethinker 72B 4bit
Apache-2.0
VL-Rethinker-72B-4bit是一個基於Qwen2.5-VL-7B-Instruct的多模態模型,支持視覺問答任務,已轉換為MLX格式以便在蘋果設備上高效運行。
文本生成圖像 Transformers 英語
V
mlx-community
26
0
Gemma 3 4b It Abliterated Q4 0 GGUF
該模型是mlabonne/gemma-3-4b-it-abliterated的GGUF格式轉換版本,結合了x-ray_alpha的視覺組件,提供更流暢的多模態體驗。
圖像生成文本
G
BernTheCreator
160
1
Llavaction 7B
LLaVAction是一個面向動作識別的多模態大語言模型評估與訓練框架,基於Qwen2語言模型架構,支持第一人稱視角視頻理解。
視頻生成文本 Transformers 英語
L
MLAdaptiveIntelligence
149
1
Tinyllava Video Qwen2.5 3B Group 16 512
Apache-2.0
TinyLLaVA-Video是基於Qwen2.5-3B和siglip-so400m-patch14-384構建的視頻理解模型,採用分組重採樣器處理視頻幀
視頻生成文本
T
Zhang199
76
0
Videochat Flash Qwen2 5 7B InternVideo2 1B
Apache-2.0
基於InternVideo2-1B和Qwen2.5-7B構建的多模態視頻文本模型,每幀僅使用16個標記,支持長達10,000幀的輸入序列。
文本生成視頻 Transformers 英語
V
OpenGVLab
193
4
Asagi 8B
Apache-2.0
Asagi-8B是一個大規模的日語視覺與語言模型(VLM),基於廣泛的日語數據集訓練,整合了多樣化的數據來源。
圖像生成文本 Transformers 日語
A
MIL-UT
58
4
Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224
Apache-2.0
DeepSeer是基於DeepSeek-R1模型開發的視覺語言模型,支持思維鏈推理能力,通過對話模板訓練視覺模型。
圖像生成文本 Transformers
D
mehmetkeremturkcan
25
2
Erax VL 7B V2.0 Preview I1 GGUF
Apache-2.0
這是對EraX-VL-7B-V2.0-Preview模型進行加權/重要性矩陣量化的結果,提供多種量化版本以適應不同需求
圖像生成文本 支持多種語言
E
mradermacher
246
1
Videochat Flash Qwen2 7B Res224
Apache-2.0
基於UMT-L和Qwen2-7B構建的多模態模型,支持長視頻理解,每幀僅使用16個標記,上下文窗口擴展至128k。
視頻生成文本 Transformers 英語
V
OpenGVLab
80
6
Videochat Flash Qwen2 5 2B Res448
Apache-2.0
VideoChat-Flash-2B是基於UMT-L(300M)和Qwen2.5-1.5B構建的多模態模型,支持視頻文本轉文本任務,僅使用每幀16個標記,並擴展上下文窗口至128k。
視頻生成文本 Transformers 英語
V
OpenGVLab
904
18
Erax VL 7B V2.0 Preview
Apache-2.0
EraX-VL-7B-V2.0-Preview是一款強大的多模態模型,專為OCR和視覺問答設計,擅長處理越南語等多種語言,在醫療表格、發票等文檔識別上表現突出。
圖像生成文本 Transformers 支持多種語言
E
erax-ai
476
22
Lava Phi
MIT
基於微軟Phi-1.5架構的視覺語言模型,結合CLIP實現圖像處理能力
圖像生成文本 Transformers 支持多種語言
L
sagar007
17
0
Videorefer 7B
Apache-2.0
VideoRefer-7B是一個多模態大語言模型,專注於視頻問答任務,能夠理解和分析視頻中的時空物體關係。
文本生成視頻 Transformers 英語
V
DAMO-NLP-SG
87
4
Llava SpaceSGG
Apache-2.0
LLaVA-SpaceSGG是基於LLaVA-v1.5-13b的視覺問答模型,專注於場景圖生成任務,能夠理解圖像內容並生成結構化場景描述。
文本生成圖像 Safetensors 英語
L
wumengyangok
36
0
Longvu Qwen2 7B
Apache-2.0
LongVU是基於Qwen2-7B的多模態模型,專注於長視頻語言理解任務,採用時空自適應壓縮技術。
視頻生成文本
L
Vision-CAIR
230
69
Mmalaya2
Apache-2.0
基於InternVL-Chat-V1-5微調的多模態模型,在MMBench基準測試中表現優異
圖像生成文本
M
DataCanvas
26
2
Idefics3 8B Llama3
Apache-2.0
Idefics3是一個開源的多模態模型,能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。
圖像生成文本 Transformers 英語
I
HuggingFaceM4
45.86k
277
Table Llava V1.5 7b
Table LLaVA 7B 是一款開源多模態聊天機器人,專為理解各類表格圖像並完成多樣化表格相關任務而設計。
圖像生成文本 Transformers 英語
T
SpursgoZmy
165
12
Idefics2 8b Chatty
Apache-2.0
Idefics2 是一個開放的多模態模型,能夠接受任意序列的圖像和文本輸入並生成文本輸出。該模型可以回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事,或僅作為純語言模型使用。
圖像生成文本 Transformers 英語
I
HuggingFaceM4
617
94
Idefics2 8b
Apache-2.0
Idefics2 是一個開源的多模態模型,能夠接受任意序列的圖像和文本輸入並生成文本輸出。它在 OCR、文檔理解和視覺推理方面有顯著提升。
圖像生成文本 Transformers 英語
I
HuggingFaceM4
14.99k
603
Idefics2 8b Base
Apache-2.0
Idefics2 是 Hugging Face 開發的開源多模態模型,能夠處理圖像和文本輸入並生成文本輸出,在 OCR、文檔理解和視覺推理方面表現優異。
圖像生成文本 Transformers 英語
I
HuggingFaceM4
1,409
28
Heron Chat Git Ja Stablelm Base 7b V1
一款能夠就輸入圖像進行對話的視覺語言模型,支持日語交互
圖像生成文本 Transformers 日語
H
turing-motors
54
2
Llava Phi2
MIT
Llava-Phi2是基於Phi2的多模態實現,結合了視覺和語言處理能力,適用於圖像文本到文本的任務。
圖像生成文本 Transformers 英語
L
RaviNaik
153
6
Monkey Chat
猴模型是一種大型多模態模型,通過提升圖像分辨率和改進文本標籤方法,在多項視覺任務中表現優異。
圖像生成文本 Transformers
M
echo840
179
16
Chattruth 7B
ChatTruth-7B是基於Qwen-VL架構優化的多語言視覺-語言模型,增強了大分辨率圖像處理能力並引入還原模塊降低計算開銷
圖像生成文本 Transformers 支持多種語言
C
mingdali
73
13
Heron Chat Git Ja Stablelm Base 7b V0
Heron GIT Japanese StableLM Base 7B 是一個能夠就輸入圖像進行對話的視覺語言模型。
圖像生成文本 Transformers 日語
H
turing-motors
57
1
Idefics 9b
其他
IDEFICS是一個開源的多模態模型,能夠處理圖像和文本輸入並生成文本輸出,是Deepmind Flamingo模型的開源復現版本。
圖像生成文本 Transformers 英語
I
HuggingFaceM4
3,676
46
Instructblip Vicuna 13b
其他
InstructBLIP是BLIP-2的視覺指令調優版本,基於Vicuna-13b語言模型,用於視覺語言任務。
圖像生成文本 Transformers 英語
I
Salesforce
1,251
42
Instructblip Flan T5 Xxl
MIT
InstructBLIP是BLIP-2經過視覺指令調優的版本,能夠根據圖像和文本指令生成描述或回答
圖像生成文本 Transformers 英語
I
Salesforce
937
21
Video Blip Flan T5 Xl Ego4d
MIT
VideoBLIP是BLIP-2的增強版本,能夠處理視頻數據,採用Flan T5-xl作為語言模型主幹。
視頻生成文本 Transformers 英語
V
kpyu
40
3
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase