2025年最佳 148 款多模態融合工具

Codebert Base
CodeBERT是一個面向編程語言與自然語言的預訓練模型,基於RoBERTa架構,支持代碼搜索和代碼生成文檔等功能。
多模態融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta開發的多模態AI模型,採用混合專家架構,支持12種語言的文本和圖像交互,具有17B激活參數和109B總參數。
多模態融合 Transformers 支持多種語言
L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoder是一個統一的多模態預訓練模型,利用代碼註釋和抽象語法樹等多模態數據預訓練代碼表示。
多模態融合 Transformers 英語
U
microsoft
347.45k
51
TITAN
TITAN是一個多模態全切片基礎模型,通過視覺自監督學習和視覺-語言對齊進行預訓練,用於病理學圖像分析。
多模態融合 英語
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
其他
Qwen2.5-Omni 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態,並以流式方式生成文本和自然語音響應。
多模態融合 Transformers 英語
Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6是一款手機端運行的GPT-4o級多模態大模型,支持視覺、語音與直播流處理
多模態融合 Transformers 其他
M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta推出的17B參數/16專家混合的多模態AI模型,支持12種語言和圖像理解,具有行業領先性能。
多模態融合 Transformers 支持多種語言
L
chutesai
173.52k
2
Qwen2.5 Omni 3B
其他
Qwen2.5-Omni是一款端到端多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態信息,並以流式方式同步生成文本和自然語音響應。
多模態融合 Transformers 英語
Q
Qwen
48.07k
219
One Align
MIT
Q-Align是一個多任務視覺評估模型,專注於圖像質量評估(IQA)、美學評估(IAA)和視頻質量評估(VQA),在ICML2024上發表。
多模態融合 Transformers
O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-T是一個專注於分析胸部X光片和放射學報告的視覺語言模型,通過時序多模態預訓練提升性能。
多模態融合 Transformers 英語
B
microsoft
26.39k
35
Chameleon 7b
其他
Meta變色龍是FAIR研發的混合模態早期融合基礎模型,支持圖像和文本的多模態處理。
多模態融合 Transformers
C
facebook
20.97k
179
LLM2CLIP Llama 3 8B Instruct CC Finetuned
Apache-2.0
LLM2CLIP是一種創新方法,通過大語言模型增強CLIP的跨模態能力,顯著提升視覺和文本表徵的判別力。
多模態融合
L
microsoft
18.16k
35
Unixcoder Base Nine
Apache-2.0
UniXcoder是一個統一的多模態預訓練模型,通過利用多模態數據(如代碼註釋和抽象語法樹)來預訓練代碼表示。
多模態融合 Transformers 英語
U
microsoft
17.35k
19
Llama Guard 4 12B
其他
Llama Guard 4 是一個原生多模態安全分類器,擁有120億參數,聯合訓練於文本和多重圖像,用於大語言模型輸入和輸出的內容安全評估。
多模態融合 Transformers 英語
L
meta-llama
16.52k
30
Spatialvla 4b 224 Pt
MIT
SpatialVLA是基於110萬真實機器人操作片段訓練的空間增強視覺語言動作模型,專注於機器人控制任務
多模態融合 Transformers 英語
S
IPEC-COMMUNITY
13.06k
5
Pi0
Apache-2.0
Pi0是一個通用機器人控制的視覺-語言-動作流模型,支持機器人控制任務。
多模態融合
P
lerobot
11.84k
230
Colnomic Embed Multimodal 7b
Apache-2.0
ColNomic Embed Multimodal 7B是一款多向量最先進的多模態嵌入模型,擅長視覺文檔檢索任務,支持多語言和統一文本圖像編碼。
多模態融合 支持多種語言
C
nomic-ai
7,909
45
Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16
其他
羊駝4 Scout是Meta發佈的170億參數混合專家模型(MoE),支持多語言文本和圖像理解,採用線性化專家模塊設計便於PEFT/LoRA兼容。
多模態融合 Transformers 支持多種語言
L
axolotl-quants
6,861
3
Cogact Base
MIT
CogACT是一種新型視覺語言動作(VLA)架構,結合視覺語言模型與專用動作模塊,用於機器人操作任務。
多模態融合 Transformers 英語
C
CogACT
6,589
12
Llama 4 Maverick 17B 128E Instruct FP8
其他
Llama 4系列原生多模態AI模型,支持文本和圖像理解,採用混合專家架構,適用於商業和研究場景。
多模態融合 Transformers 支持多種語言
L
RedHatAI
5,679
1
Colnomic Embed Multimodal 3b
ColNomic Embed多模態3B是一款30億參數的多模態嵌入模型,專為視覺文檔檢索任務設計,支持多語言文本和圖像的統一編碼。
多模態融合 支持多種語言
C
nomic-ai
4,636
17
Llama Guard 3 11B Vision
基於Llama-3.2-11B微調的多模態內容安全分類器,專為檢測圖文混合有害內容優化
多模態融合 Transformers 支持多種語言
L
meta-llama
4,553
60
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 是一個雙編碼器模型,專為將文檔截圖編碼為密集向量以實現文檔檢索而設計。
多模態融合 支持多種語言
D
MrLight
4,447
56
Biomedclip Vit Bert Hf
MIT
基於PyTorch和Huggingface框架實現的BiomedCLIP模型,復現了原版microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224模型
多模態融合 Transformers 英語
B
chuhac
4,437
1
Ming Lite Omni
MIT
輕量級統一多模態模型,高效處理圖像、文本、音頻和視頻等多種模態數據,在語音和圖像生成方面表現出色。
多模態融合 Transformers
M
inclusionAI
4,215
103
Qwen2.5 Omni 7B GPTQ 4bit
MIT
基於Qwen2.5-Omni-7B模型的4比特GPTQ量化版本,支持多語言和多模態任務。
多模態融合 Safetensors 支持多種語言
Q
FunAGI
3,957
51
Taxabind Vit B 16
MIT
TaxaBind 是一個包含六種模態的多模態嵌入空間模型,專注於生態應用,支持利用分類學文本類別對物種圖像進行零樣本分類。
多模態融合
T
MVRL
3,672
0
GR00T N1 2B
英偉達Isaac GR00T N1是全球首個面向通用人形機器人推理與技能的開源基礎模型,具有20億參數規模。
多模態融合
G
nvidia
3,631
284
Hume System2
MIT
Hume-System2是一個雙系統視覺-語言-行動(VLA)模型的系統2預訓練權重,用於加速系統2的訓練,為機器人領域的相關研究和應用提供支持。
多模態融合 Transformers 英語
H
Hume-vla
3,225
1
Llave 0.5B
Apache-2.0
LLaVE是基於LLaVA-OneVision-0.5B模型的多模態嵌入模型,參數規模為0.5B,能夠對文本、圖像、多圖像和視頻進行嵌入。
多模態融合 Transformers 英語
L
zhibinlan
2,897
7
Libero Object 1
MIT
Hume-Libero_Object是一個在Libero-Object數據集上訓練的雙系統視覺-語言-動作模型,具備系統2思維能力,適用於機器人領域的研究和應用。
多模態融合 Transformers 英語
L
Hume-vla
2,836
0
Libero Goal 1
MIT
Hume-Libero_Goal是一個基於雙系統思維的視覺-語言-動作模型,專為機器人任務設計,融合了System-2思維以提高決策能力。
多模態融合 Transformers 英語
L
Hume-vla
2,698
1
Rdt 1b
MIT
基於100萬+多機器人操作數據預訓練的10億參數模仿學習擴散Transformer模型,支持多視角視覺語言動作預測
多模態融合 Transformers 英語
R
robotics-diffusion-transformer
2,644
80
Openvla 7b Oft Finetuned Libero Spatial
MIT
OpenVLA-OFT是一個經過優化的視覺-語言-動作模型,通過微調技術顯著提升了基礎OpenVLA模型的運行速度和任務成功率。
多模態融合 Transformers
O
moojink
2,513
3
Llama 4 Scout 17B 16E Unsloth Bnb 4bit
其他
Llama 4 Scout是Meta開發的多模態混合專家模型,支持12種語言和圖像理解,具有170億激活參數和10M上下文長度。
多模態融合 Transformers 支持多種語言
L
unsloth
2,492
1
Omniembed V0.1
MIT
基於Qwen2.5-Omni-7B構建的多模態嵌入模型,支持跨語言文本、圖像、音頻和視頻的統一嵌入表示
多模態融合
O
Tevatron
2,190
3
Llama 4 Scout 17B 16E Unsloth Dynamic Bnb 4bit
其他
Llama 4 Scout是Meta推出的170億參數混合專家架構多模態模型,支持12種語言和圖像理解
多模態融合 Transformers 支持多種語言
L
unsloth
1,935
2
Eagle X4 8B Plus
Eagle是一個以視覺為中心的高分辨率多模態大語言模型家族,通過融合多種視覺編碼器和不同輸入分辨率,增強了多模態大語言模型的感知能力。
多模態融合 Transformers
E
NVEagle
1,699
4
Chattime 1 7B Chat
Apache-2.0
ChatTime是一個統一處理時間序列與文本的多模態基礎模型,具備零樣本預測能力,支持時間序列與文本的雙模態輸入/輸出。
多模態融合 Transformers
C
ChengsenWang
1,621
2
Mlcd Vit Large Patch14 336
Apache-2.0
基於ViT-L/14@336px架構的視覺特徵提取模型,在多項多模態任務中超越CLIP基準
多模態融合
M
DeepGlint-AI
1,450
10
Llave 7B
Apache-2.0
LLaVE-7B是基於LLaVA-OneVision-7B模型的70億參數多模態嵌入模型,具備文本、圖像、多圖像和視頻的嵌入表示能力。
多模態融合 Transformers 英語
L
zhibinlan
1,389
5
Pi0fast Base
Apache-2.0
π0+FAST 是一種面向機器人技術的高效動作標記化方案,由Physical Intelligence設計,適用於視覺-語言-動作任務。
多模態融合 Safetensors
P
lerobot
1,372
12
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase