多模態融合

2025年最佳 148 款多模態融合工具

CodeBERT是一個面向編程語言與自然語言的預訓練模型，基於RoBERTa架構，支持代碼搜索和代碼生成文檔等功能。

多模態融合

Llama 4 Scout 17B 16E Instruct

Llama 4 Scout是Meta開發的多模態AI模型，採用混合專家架構，支持12種語言的文本和圖像交互，具有17B激活參數和109B總參數。

多模態融合

Transformers 支持多種語言

UniXcoder是一個統一的多模態預訓練模型，利用代碼註釋和抽象語法樹等多模態數據預訓練代碼表示。

多模態融合

Transformers 英語

TITAN是一個多模態全切片基礎模型，通過視覺自監督學習和視覺-語言對齊進行預訓練，用於病理學圖像分析。

多模態融合英語

Qwen2.5 Omni 7B

Qwen2.5-Omni 是一個端到端的多模態模型，能夠感知文本、圖像、音頻和視頻等多種模態，並以流式方式生成文本和自然語音響應。

多模態融合

Transformers 英語

MiniCPM-o 2.6是一款手機端運行的GPT-4o級多模態大模型，支持視覺、語音與直播流處理

多模態融合

Transformers 其他

Llama 4 Scout 17B 16E Instruct

Llama 4 Scout是Meta推出的17B參數/16專家混合的多模態AI模型，支持12種語言和圖像理解，具有行業領先性能。

多模態融合

Transformers 支持多種語言

Qwen2.5 Omni 3B

Qwen2.5-Omni是一款端到端多模態模型，能夠感知文本、圖像、音頻和視頻等多種模態信息，並以流式方式同步生成文本和自然語音響應。

多模態融合

Transformers 英語

Q-Align是一個多任務視覺評估模型，專注於圖像質量評估(IQA)、美學評估(IAA)和視頻質量評估(VQA)，在ICML2024上發表。

多模態融合

Biomedvlp BioViL T

BioViL-T是一個專注於分析胸部X光片和放射學報告的視覺語言模型，通過時序多模態預訓練提升性能。

多模態融合

Transformers 英語

Meta變色龍是FAIR研發的混合模態早期融合基礎模型，支持圖像和文本的多模態處理。

多模態融合

LLM2CLIP Llama 3 8B Instruct CC Finetuned

LLM2CLIP是一種創新方法，通過大語言模型增強CLIP的跨模態能力，顯著提升視覺和文本表徵的判別力。

多模態融合

Unixcoder Base Nine

UniXcoder是一個統一的多模態預訓練模型，通過利用多模態數據（如代碼註釋和抽象語法樹）來預訓練代碼表示。

多模態融合

Transformers 英語

Llama Guard 4 12B

Llama Guard 4 是一個原生多模態安全分類器，擁有120億參數，聯合訓練於文本和多重圖像，用於大語言模型輸入和輸出的內容安全評估。

多模態融合

Transformers 英語

Spatialvla 4b 224 Pt

SpatialVLA是基於110萬真實機器人操作片段訓練的空間增強視覺語言動作模型，專注於機器人控制任務

多模態融合

Transformers 英語

Pi0是一個通用機器人控制的視覺-語言-動作流模型，支持機器人控制任務。

多模態融合

Colnomic Embed Multimodal 7b

ColNomic Embed Multimodal 7B是一款多向量最先進的多模態嵌入模型，擅長視覺文檔檢索任務，支持多語言和統一文本圖像編碼。

多模態融合支持多種語言

Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16

羊駝4 Scout是Meta發佈的170億參數混合專家模型(MoE)，支持多語言文本和圖像理解，採用線性化專家模塊設計便於PEFT/LoRA兼容。

多模態融合

Transformers 支持多種語言

CogACT是一種新型視覺語言動作(VLA)架構，結合視覺語言模型與專用動作模塊，用於機器人操作任務。

多模態融合

Transformers 英語

Llama 4 Maverick 17B 128E Instruct FP8

Llama 4系列原生多模態AI模型，支持文本和圖像理解，採用混合專家架構，適用於商業和研究場景。

多模態融合

Transformers 支持多種語言

Colnomic Embed Multimodal 3b

ColNomic Embed多模態3B是一款30億參數的多模態嵌入模型，專為視覺文檔檢索任務設計，支持多語言文本和圖像的統一編碼。

多模態融合支持多種語言

Llama Guard 3 11B Vision

基於Llama-3.2-11B微調的多模態內容安全分類器，專為檢測圖文混合有害內容優化

多模態融合

Transformers 支持多種語言

Dse Qwen2 2b Mrl V1

DSE-QWen2-2b-MRL-V1 是一個雙編碼器模型，專為將文檔截圖編碼為密集向量以實現文檔檢索而設計。

多模態融合支持多種語言

Biomedclip Vit Bert Hf

基於PyTorch和Huggingface框架實現的BiomedCLIP模型，復現了原版microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224模型

多模態融合

Transformers 英語

輕量級統一多模態模型，高效處理圖像、文本、音頻和視頻等多種模態數據，在語音和圖像生成方面表現出色。

多模態融合

Qwen2.5 Omni 7B GPTQ 4bit

基於Qwen2.5-Omni-7B模型的4比特GPTQ量化版本，支持多語言和多模態任務。

多模態融合

Safetensors 支持多種語言

Taxabind Vit B 16

TaxaBind 是一個包含六種模態的多模態嵌入空間模型，專注於生態應用，支持利用分類學文本類別對物種圖像進行零樣本分類。

多模態融合

英偉達Isaac GR00T N1是全球首個面向通用人形機器人推理與技能的開源基礎模型，具有20億參數規模。

多模態融合

Hume-System2是一個雙系統視覺-語言-行動（VLA）模型的系統2預訓練權重，用於加速系統2的訓練，為機器人領域的相關研究和應用提供支持。

多模態融合

Transformers 英語

LLaVE是基於LLaVA-OneVision-0.5B模型的多模態嵌入模型，參數規模為0.5B，能夠對文本、圖像、多圖像和視頻進行嵌入。

多模態融合

Transformers 英語

Libero Object 1

Hume-Libero_Object是一個在Libero-Object數據集上訓練的雙系統視覺-語言-動作模型，具備系統2思維能力，適用於機器人領域的研究和應用。

多模態融合

Transformers 英語

Hume-Libero_Goal是一個基於雙系統思維的視覺-語言-動作模型，專為機器人任務設計，融合了System-2思維以提高決策能力。

多模態融合

Transformers 英語

基於100萬+多機器人操作數據預訓練的10億參數模仿學習擴散Transformer模型，支持多視角視覺語言動作預測

多模態融合

Transformers 英語

robotics-diffusion-transformer

Openvla 7b Oft Finetuned Libero Spatial

OpenVLA-OFT是一個經過優化的視覺-語言-動作模型，通過微調技術顯著提升了基礎OpenVLA模型的運行速度和任務成功率。

多模態融合

Llama 4 Scout 17B 16E Unsloth Bnb 4bit

Llama 4 Scout是Meta開發的多模態混合專家模型，支持12種語言和圖像理解，具有170億激活參數和10M上下文長度。

多模態融合

Transformers 支持多種語言

基於Qwen2.5-Omni-7B構建的多模態嵌入模型，支持跨語言文本、圖像、音頻和視頻的統一嵌入表示

多模態融合

Llama 4 Scout 17B 16E Unsloth Dynamic Bnb 4bit

Llama 4 Scout是Meta推出的170億參數混合專家架構多模態模型，支持12種語言和圖像理解

多模態融合

Transformers 支持多種語言

Eagle X4 8B Plus

Eagle是一個以視覺為中心的高分辨率多模態大語言模型家族，通過融合多種視覺編碼器和不同輸入分辨率，增強了多模態大語言模型的感知能力。

多模態融合

Chattime 1 7B Chat

ChatTime是一個統一處理時間序列與文本的多模態基礎模型，具備零樣本預測能力，支持時間序列與文本的雙模態輸入/輸出。

多模態融合

Mlcd Vit Large Patch14 336

基於ViT-L/14@336px架構的視覺特徵提取模型，在多項多模態任務中超越CLIP基準

多模態融合

LLaVE-7B是基於LLaVA-OneVision-7B模型的70億參數多模態嵌入模型，具備文本、圖像、多圖像和視頻的嵌入表示能力。

多模態融合

Transformers 英語

π0+FAST 是一種面向機器人技術的高效動作標記化方案，由Physical Intelligence設計，適用於視覺-語言-動作任務。

多模態融合

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase