Align Base
ALIGN是一個視覺-語言雙編碼器模型,通過對比學習實現圖像與文本表徵的對齊,利用大規模噪聲數據實現先進的跨模態表徵效果。
多模態對齊
Transformers 英語

A
kakaobrain
78.28k
25
Biomedvlp CXR BERT Specialized
MIT
針對胸部X光領域優化的語言模型,通過改進詞彙表、創新預訓練流程和文本增強技術實現卓越性能
多模態對齊
Transformers 英語

B
microsoft
35.69k
28
Languagebind Image
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現語義對齊。
多模態對齊
Transformers

L
LanguageBind
25.71k
11
Languagebind Video FT
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現視頻、紅外、深度、音頻等多種模態的語義對齊。
多模態對齊
Transformers

L
LanguageBind
22.97k
4
Languagebind Audio FT
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態間的紐帶實現語義對齊。
多模態對齊
Transformers

L
LanguageBind
12.59k
1
Languagebind Video Merge
MIT
LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型,獲得了ICLR 2024的接收。
多模態對齊
Transformers

L
LanguageBind
10.96k
4
E5 V
E5-V是基於多模態大語言模型的通用嵌入方法,能夠處理文本和圖像輸入並生成統一的嵌入表示。
多模態對齊
Transformers

E
royokong
5,619
22
M BERT Base ViT B
基於BERT-base-multilingual微調的多語言CLIP文本編碼器,支持69種語言與CLIP視覺編碼器對齊
多模態對齊
M
M-CLIP
3,376
12
M3D CLIP
Apache-2.0
M3D-CLIP是專為3D醫學影像設計的CLIP模型,通過對比損失實現視覺與語言的對齊。
多模態對齊
Transformers

M
GoodBaiBai88
2,962
9
Languagebind Video Huge V1.5 FT
MIT
LanguageBind 是一種通過語言實現多模態語義對齊的預訓練模型,能夠將視頻、音頻、深度、熱成像等多種模態與語言進行綁定,實現跨模態的理解和檢索。
多模態對齊
Transformers

L
LanguageBind
2,711
4
Languagebind Depth
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現視頻、紅外、深度、音頻等多種模態的語義對齊。
多模態對齊
Transformers

L
LanguageBind
898
0
Languagebind Thermal
MIT
LanguageBind是一個通過語言作為紐帶實現多模態語義對齊的預訓練框架,支持視頻、紅外、深度、音頻等多種模態與語言的聯合學習。
多模態對齊
Transformers

L
LanguageBind
887
1
Languagebind Video V1.5 FT
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現多模態語義對齊。
多模態對齊
Transformers

L
LanguageBind
853
5
Fg Clip Large
Apache-2.0
FG-CLIP是一種細粒度視覺與文本對齊模型,通過兩階段訓練實現全局和區域級的圖文對齊,提升細粒度視覺理解能力。
多模態對齊
Transformers 英語

F
qihoo360
538
3
Unime LLaVA OneVision 7B
MIT
UniME是一個基於多模態大模型的通用嵌入學習框架,通過文本判別知識蒸餾和硬負樣本增強的指令調優策略,顯著提升了多模態嵌入能力。
多模態對齊
Transformers 英語

U
DeepGlint-AI
376
2
Languagebind Audio
MIT
LanguageBind 是一種以語言為中心的多模態預訓練方法,通過語言語義對齊將視頻-語言預訓練擴展至N模態,實現了高性能的多模態理解與對齊。
多模態對齊
Transformers

L
LanguageBind
271
3
Internvl3 8B
Apache-2.0
InternVL3-8B 是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,能處理圖像、視頻等多模態數據。
多模態對齊
Transformers

I
unsloth
224
1
Languagebind Video
MIT
LanguageBind是一種通過語言語義對齊將視頻-語言預訓練擴展至N模態的多模態預訓練框架,被ICLR 2024收錄。
多模態對齊
Transformers

L
LanguageBind
166
2
Clap Asm
MIT
CLAP是通過自然語言監督學習二進制代碼表徵的框架,通過將二進制代碼與自然語言描述對齊,提升分析性能。
多模態對齊
Transformers

C
hustcw
102
19
Emova Qwen 2 5 3b Hf
Apache-2.0
EMOVA是一種端到端全能模態大語言模型,支持視覺、聽覺和語音功能,具備情感語音對話能力。
多模態對齊
Transformers 支持多種語言

E
Emova-ollm
101
5
Hpt Base
HPT是一種將不同實體對齊到共享潛在空間的變換器模型,專注於策略學習中的擴展行為研究。
多模態對齊
Transformers

H
liruiw
70
10
Unime Phi3.5 V 4.2B
MIT
UniME 是一個基於多模態大模型的通用嵌入學習模型,專注於打破模態壁壘,實現跨模態檢索和嵌入學習。
多模態對齊
Transformers 英語

U
DeepGlint-AI
54
4