# 多模態對齊

Cultureclip
基於CLIP-ViT-B/32微調的視覺語言模型,適用於圖像-文本匹配任務
文本生成圖像 Transformers
C
lukahh
20
0
Hermesflow
Apache-2.0
赫爾墨斯流是一個通用的多模態大語言模型對齊框架,能夠自主生成同源偏好數據,並通過自我博弈迭代優化與配對DPO技術,無縫彌合多模態理解與生成的鴻溝。
圖像生成文本
H
Gen-Verse
218
4
Resnet50x64 Clip Gap.openai
Apache-2.0
基於ResNet50架構的CLIP模型圖像編碼器,具有64倍寬度擴展,使用全局平均池化(GAP)策略
圖像分類 Transformers
R
timm
107
0
Resnet50x16 Clip Gap.openai
Apache-2.0
基於CLIP框架的ResNet50x16變體模型,專注於圖像特徵提取
圖像分類 Transformers
R
timm
129
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基於CLIP架構的ViT-Huge圖像編碼器,由蘋果公司發佈的DFN5B-CLIP模型,適用於視覺特徵提取任務。
圖像分類 Transformers
V
timm
128
0
Vit So400m Patch14 Siglip 224.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
圖像分類 Transformers
V
timm
123
1
AA Chameleon 7b Plus
這是一個強大的文本-圖像交錯輸入輸出模型,通過對齊萬物算法進行了深度對齊,提升了圖像生成能力和人類偏好對齊能力。
文本生成圖像 Transformers 英語
A
PKU-Alignment
34
5
Hpt Base
HPT是一種將不同實體對齊到共享潛在空間的變換器模型,專注於策略學習中的擴展行為研究。
多模態對齊 Transformers
H
liruiw
70
10
Owlvit Tiny Non Contiguous Weight
MIT
OWL-ViT 是一個基於視覺Transformer的開放詞彙目標檢測模型,能夠檢測圖像中未在訓練集中出現的類別。
文本生成圖像 Transformers
O
fxmarty
337
0
Languagebind Video Huge V1.5 FT
MIT
LanguageBind 是一種通過語言實現多模態語義對齊的預訓練模型,能夠將視頻、音頻、深度、熱成像等多種模態與語言進行綁定,實現跨模態的理解和檢索。
多模態對齊 Transformers
L
LanguageBind
2,711
4
Languagebind Audio FT
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態間的紐帶實現語義對齊。
多模態對齊 Transformers
L
LanguageBind
12.59k
1
Languagebind Video FT
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現視頻、紅外、深度、音頻等多種模態的語義對齊。
多模態對齊 Transformers
L
LanguageBind
22.97k
4
Languagebind Video Merge
MIT
LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型,獲得了ICLR 2024的接收。
多模態對齊 Transformers
L
LanguageBind
10.96k
4
Languagebind Image
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現語義對齊。
多模態對齊 Transformers
L
LanguageBind
25.71k
11
Languagebind Depth
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現視頻、紅外、深度、音頻等多種模態的語義對齊。
多模態對齊 Transformers
L
LanguageBind
898
0
Languagebind Video
MIT
LanguageBind是一種通過語言語義對齊將視頻-語言預訓練擴展至N模態的多模態預訓練框架,被ICLR 2024收錄。
多模態對齊 Transformers
L
LanguageBind
166
2
Languagebind Audio
MIT
LanguageBind 是一種以語言為中心的多模態預訓練方法,通過語言語義對齊將視頻-語言預訓練擴展至N模態,實現了高性能的多模態理解與對齊。
多模態對齊 Transformers
L
LanguageBind
271
3
Languagebind Thermal
MIT
LanguageBind是一個通過語言作為紐帶實現多模態語義對齊的預訓練框架,支持視頻、紅外、深度、音頻等多種模態與語言的聯合學習。
多模態對齊 Transformers
L
LanguageBind
887
1
Tinysapbert From TinyPubMedBERT V1.0
TinySapBERT是一個基於SapBERT框架訓練的微型生物醫學實體表示模型,專為生物醫學命名實體識別任務設計。
大型語言模型 Transformers
T
dmis-lab
16.93k
0
Distilbert Base Turkish Cased Clip
基於dbmdz/distilbert-base-turkish-cased微調的土耳其語文本編碼器,用於與CLIP的ViT-B/32圖像編碼器配合使用
文本生成圖像 Transformers
D
mys
2,354
1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase