# 跨模態理解

Qwen2.5 Omni 7B GGUF
其他
Qwen2.5-Omni-7B-GGUF 是基於 Qwen2.5-Omni-7B 模型的 GGUF 格式版本,支持多模態輸入,包括文本、音頻和圖像。
大型語言模型 英語
Q
ggml-org
319
3
Internvl3 78B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,具備強大的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本 Transformers 其他
I
OpenGVLab
40
1
Cephalo Gemma 3 4b It 04 16 2025
Cephalo-Gemma-3-4b 是一個專注於生物材料和蜘蛛絲分析的視覺語言模型,基於 Gemma 架構進行精調。
圖像生成文本 Transformers
C
lamm-mit
17
1
Qwen2.5 Omni 7B
其他
Qwen2.5-Omni 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態,並以流式方式生成文本和自然語音響應。
多模態融合 Transformers 英語
Q
Qwen
206.20k
1,522
Centurio Aya
Centurio 是一個開源的多語言大型視覺語言模型,支持100種語言,具備圖像文本到文本的處理能力。
圖像生成文本 Transformers 支持多種語言
C
WueNLP
29
4
VITA 1.5
VITA-1.5是一個多模態交互模型,旨在實現GPT-4o級別的即時視覺與語音交互能力。
V
VITA-MLLM
345
40
Aimv2 Large Patch14 224 Distilled
AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列,在多模態理解基準測試中表現優異。
圖像分類
A
apple
236
0
Thaicapgen Clip Gpt2
基於CLIP編碼器和GPT2架構的編碼器-解碼器模型,用於生成泰語圖像描述
圖像生成文本 其他
T
Natthaphon
18
0
Vila U 7b 256
MIT
VILA-U是一個統一處理視覺語言理解與生成任務的基礎模型,通過單一自迴歸框架實現高效的多模態處理。
文本生成圖像
V
mit-han-lab
127
21
AA Chameleon 7b Plus
這是一個強大的文本-圖像交錯輸入輸出模型,通過對齊萬物算法進行了深度對齊,提升了圖像生成能力和人類偏好對齊能力。
文本生成圖像 Transformers 英語
A
PKU-Alignment
34
5
Chameleon 30b
其他
Meta變色龍是FAIR研發的混合模態早期融合基礎模型,支持圖像和文本的多模態處理。
多模態融合 Transformers
C
facebook
102
86
Final Model
Apache-2.0
該模型是一個基於Apache-2.0許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
文字識別 Transformers
F
goatrider
17
0
CSUMLM
Apache-2.0
CSUMLM是整合多模態AI引擎和大語言模型優勢的前沿人工智能系統,具備多模態處理、複雜語言理解和即時學習能力。
多模態融合 Transformers 支持多種語言
C
Or4cl3-1
35
1
Finetuned Blip Chest Xrays
Bsd-3-clause
一個基於深度學習的圖像轉文本模型,能夠為輸入的圖像生成描述性字幕。
圖像生成文本 Transformers 英語
F
daniyal214
33
0
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長圖像描述生成和理解任務,通過引導式標註策略高效利用網絡數據
圖像生成文本 Transformers
B
movementso
18
0
General Image Captioning
Apache-2.0
這是一個基於Apache-2.0許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
文字識別 Transformers 其他
G
alibidaran
30
0
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
這是一個使用OpenCLIP在DataComp-1B數據集上訓練的CLIP ViT-B/16模型,主要用於零樣本圖像分類和圖像文本檢索。
文本生成圖像
C
laion
4,461
7
Pix2struct Docvqa Base
Apache-2.0
Pix2Struct是一個圖像編碼器-文本解碼器模型,通過圖像-文本對訓練,支持多種任務,包括圖像描述生成和視覺問答。
圖像生成文本 Transformers 支持多種語言
P
google
8,601
37
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
這是一個基於MIT許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
圖像生成文本
M
laion
21.02k
20
Vinvl Base Image Captioning
Apache-2.0
微軟VinVL基礎預訓練模型,專為圖像描述生成任務設計,具備強大的視覺-語言理解能力。
圖像生成文本
V
michelecafagna26
45
1
Chinese Clip Vit Large Patch14 336px
中文CLIP是基於約2億中文圖文對數據集的CLIP簡化實現,採用ViT-L/14@336px作為圖像編碼器,RoBERTa-wwm-base作為文本編碼器。
文本生成圖像 Transformers
C
OFA-Sys
713
23
Veld Base
Apache-2.0
支持韓語和英語的預訓練視覺編碼器文本解碼器模型
圖像生成文本 Transformers 支持多種語言
V
KETI-AIR
40
0
Molt5 Base
Apache-2.0
molt5-base 是一個基於 T5 架構的模型,專門用於分子與自然語言之間的翻譯任務。
機器翻譯 Transformers
M
laituan245
3,617
1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase