# 多模態模型

Spaceom GGUF
Apache-2.0
SpaceOm-GGUF 是一款專注於視覺問答任務的多模態模型,在空間推理方面表現出色。
文本生成圖像 英語
S
mgonzs13
196
1
PP Chart2Table
Apache-2.0
PP-Chart2Table是由PaddlePaddle團隊開發的多模態模型,專注於中英文圖表解析,能夠高效地將圖表轉換為數據表。
圖像生成文本 支持多種語言
P
PaddlePaddle
1,392
0
Gemma 3 4b It Qat GGUF
Gemma 3是谷歌推出的輕量級先進開放模型系列,基於創建Gemini模型的相同研究和技術構建。該模型是多模態的,能夠處理文本和圖像輸入並生成文本輸出。
文本生成圖像 英語
G
unsloth
2,629
2
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
該模型是基於Qwen2-VL-7B-Captioner-Relaxed轉換的GGUF格式版本,專為圖像轉文本任務優化,支持通過llama.cpp和Koboldcpp等工具運行。
圖像生成文本 英語
Q
r3b31
321
1
Llm Jp Clip Vit Base Patch16
Apache-2.0
日語CLIP模型,基於OpenCLIP框架訓練,支持零樣本圖像分類任務
文本生成圖像 日語
L
llm-jp
40
1
Vit GPT2 Image Captioning
基於ViT-GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本 Transformers
V
mo-thecreator
17
0
Vit GPT2 Image Captioning
基於ViT-GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本 Transformers
V
motheecreator
149
0
Florence 2 Large TableDetection
MIT
基於Florence-2模型微調的多模態表格檢測模型,能夠精準定位圖像中的表格區域
圖像生成文本 Transformers
F
ucsahin
1,993
18
Paligemma Longprompt V1 Safetensors
Gpl-3.0
實驗性視覺模型,融合關鍵詞標籤與長文本描述生成圖像提示詞
圖像生成文本 Transformers
P
mnemic
38
1
Paligemma 3b Mix 448 Ft TableDetection
基於google/paligemma-3b-mix-448微調的多模態表格檢測模型,專用於識別圖像中的表格區域
圖像生成文本 Transformers
P
ucsahin
19
4
Paligemma Vqav2
該模型是基於google/paligemma-3b-pt-224在VQAv2數據集的一小部分上進行微調的版本,專注於視覺問答任務。
文本生成圖像 Transformers
P
merve
168
13
Paligemma Rich Captions
Apache-2.0
基於PaliGemma-3b模型在DocCI數據集上微調的圖像描述生成模型,能生成200-350字符的詳細描述文本,減少幻覺現象
圖像生成文本 Transformers 英語
P
gokaygokay
66
9
Compare2score
MIT
Compare2Score是一個用於圖像質量評估的模型,通過特定算法為圖像提供質量評分。
圖像增強 Transformers
C
q-future
391
4
Chexagent 2 3b
CheXagent是一個專注於胸部X光解讀的基礎模型,旨在輔助醫療影像分析。
圖像生成文本 Transformers 其他
C
StanfordAIMI
28.72k
4
Vit Base Patch16 224 Turkish Gpt2 Medium
Apache-2.0
這是一個基於ViT和土耳其語GPT-2的視覺編碼器-解碼器模型,用於生成土耳其語的圖像描述。
圖像生成文本 Transformers 其他
V
atasoglu
14
0
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
基於ViT架構的CLIP模型,用於零樣本圖像分類任務
圖像分類
V
timm
144
0
Xrayclip Vit L 14 Laion2b S32b B82k
CheXagent是一個專門用於胸部X光解讀的基礎模型,能夠自動分析和解釋胸部X光圖像。
圖像生成文本 Transformers
X
StanfordAIMI
975
0
Siglip Large Patch16 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的多模態模型,採用改進的Sigmoid損失函數,適用於零樣本圖像分類和圖文檢索任務。
圖像生成文本 Transformers
S
google
245.21k
6
Siglip Large Patch16 256
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數提升性能
圖像生成文本 Transformers
S
google
24.13k
12
Siglip Base Patch16 512
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺-語言模型,採用改進的sigmoid損失函數,在圖像分類和圖文檢索任務中表現優異。
文本生成圖像 Transformers
S
google
237.79k
24
Chinese Clip Vit Large Patch14
中文CLIP模型,基於Vision Transformer架構,支持圖像與文本的跨模態理解與生成。
文本生成圖像 Transformers
C
Xenova
14
0
Chartllama 13b
Apache-2.0
ChartLlama是基於LLaVA-1.5架構的多模態模型,專注於圖表理解和分析任務。
大型語言模型 Transformers 英語
C
listen2you002
144
19
Siglip Base Patch16 224
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的Sigmoid損失函數,優化了圖像-文本匹配任務
圖像生成文本 Transformers
S
google
250.28k
43
Blip Image Captioning Base Test Sagemaker Tops 3
Bsd-3-clause
該模型是基於Salesforce的BLIP圖像描述生成基礎模型在SageMaker平臺上微調的版本,主要用於圖像描述生成任務。
圖像生成文本 Transformers
B
GHonem
13
0
Swin Aragpt2 Image Captioning V3
基於Swin Transformer和AraGPT2架構的圖像描述生成模型,能夠為輸入的圖像生成文本描述。
圖像生成文本 Transformers
S
AsmaMassad
18
0
Saved Model Git Base
MIT
基於microsoft/git-base在圖像文件夾數據集上微調的視覺語言模型,主要用於圖像描述生成任務
圖像生成文本 Transformers 其他
S
holipori
13
0
Blip2 Flan T5 Xl Sharded
MIT
這是BLIP-2模型的分片版本,採用Flan T5-xl實現圖像到文本任務,如圖像描述和視覺問答。分片處理使其能在低內存環境中加載。
圖像生成文本 Transformers 英語
B
ethzanalytics
71
6
Image Caption
Apache-2.0
基於VisionEncoderDecoder架構的圖像描述生成模型,能夠將輸入圖像轉換為自然語言描述。
圖像生成文本 Transformers
I
jaimin
14
2
Clip Vit Large Patch14 Ko
MIT
基於知識蒸餾訓練的韓語CLIP模型,支持韓語和英語的多模態理解
文本生成圖像 Transformers 韓語
C
Bingsu
4,537
15
Layoutlmv3 Finetuned Wildreceipt
基於LayoutLMv3-base模型在WildReceipt收據數據集上微調的版本,用於收據關鍵信息提取任務
文字識別 Transformers
L
Theivaprakasham
118
3
Vitgpt2 Vizwiz
基於ViT-GPT2架構的視覺-語言模型,用於圖像轉文本任務
圖像生成文本 Transformers
V
gagan3012
24
1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase