多模態對齊

2025年最佳 22 款多模態對齊工具

ALIGN是一個視覺-語言雙編碼器模型，通過對比學習實現圖像與文本表徵的對齊，利用大規模噪聲數據實現先進的跨模態表徵效果。

多模態對齊

Transformers 英語

Biomedvlp CXR BERT Specialized

針對胸部X光領域優化的語言模型，通過改進詞彙表、創新預訓練流程和文本增強技術實現卓越性能

多模態對齊

Transformers 英語

Languagebind Image

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現語義對齊。

多模態對齊

Languagebind Video FT

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現視頻、紅外、深度、音頻等多種模態的語義對齊。

多模態對齊

Languagebind Audio FT

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態間的紐帶實現語義對齊。

多模態對齊

Languagebind Video Merge

LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型，獲得了ICLR 2024的接收。

多模態對齊

E5-V是基於多模態大語言模型的通用嵌入方法，能夠處理文本和圖像輸入並生成統一的嵌入表示。

多模態對齊

M BERT Base ViT B

基於BERT-base-multilingual微調的多語言CLIP文本編碼器，支持69種語言與CLIP視覺編碼器對齊

多模態對齊

M3D-CLIP是專為3D醫學影像設計的CLIP模型，通過對比損失實現視覺與語言的對齊。

多模態對齊

Languagebind Video Huge V1.5 FT

LanguageBind 是一種通過語言實現多模態語義對齊的預訓練模型，能夠將視頻、音頻、深度、熱成像等多種模態與語言進行綁定，實現跨模態的理解和檢索。

多模態對齊

Languagebind Depth

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現視頻、紅外、深度、音頻等多種模態的語義對齊。

多模態對齊

Languagebind Thermal

LanguageBind是一個通過語言作為紐帶實現多模態語義對齊的預訓練框架，支持視頻、紅外、深度、音頻等多種模態與語言的聯合學習。

多模態對齊

Languagebind Video V1.5 FT

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現多模態語義對齊。

多模態對齊

FG-CLIP是一種細粒度視覺與文本對齊模型，通過兩階段訓練實現全局和區域級的圖文對齊，提升細粒度視覺理解能力。

多模態對齊

Transformers 英語

Unime LLaVA OneVision 7B

UniME是一個基於多模態大模型的通用嵌入學習框架，通過文本判別知識蒸餾和硬負樣本增強的指令調優策略，顯著提升了多模態嵌入能力。

多模態對齊

Transformers 英語

Languagebind Audio

LanguageBind 是一種以語言為中心的多模態預訓練方法，通過語言語義對齊將視頻-語言預訓練擴展至N模態，實現了高性能的多模態理解與對齊。

多模態對齊

InternVL3-8B 是一款先進的多模態大語言模型，具備卓越的多模態感知和推理能力，能處理圖像、視頻等多模態數據。

多模態對齊

Languagebind Video

LanguageBind是一種通過語言語義對齊將視頻-語言預訓練擴展至N模態的多模態預訓練框架，被ICLR 2024收錄。

多模態對齊

CLAP是通過自然語言監督學習二進制代碼表徵的框架，通過將二進制代碼與自然語言描述對齊，提升分析性能。

多模態對齊

Emova Qwen 2 5 3b Hf

EMOVA是一種端到端全能模態大語言模型，支持視覺、聽覺和語音功能，具備情感語音對話能力。

多模態對齊

Transformers 支持多種語言

HPT是一種將不同實體對齊到共享潛在空間的變換器模型，專注於策略學習中的擴展行為研究。

多模態對齊

Unime Phi3.5 V 4.2B

UniME 是一個基於多模態大模型的通用嵌入學習模型，專注於打破模態壁壘，實現跨模態檢索和嵌入學習。

多模態對齊

Transformers 英語

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase