Align Base
ALIGN是一个视觉-语言双编码器模型,通过对比学习实现图像与文本表征的对齐,利用大规模噪声数据实现先进的跨模态表征效果。
多模态对齐
Transformers 英语

A
kakaobrain
78.28k
25
Biomedvlp CXR BERT Specialized
MIT
针对胸部X光领域优化的语言模型,通过改进词汇表、创新预训练流程和文本增强技术实现卓越性能
多模态对齐
Transformers 英语

B
microsoft
35.69k
28
Languagebind Image
MIT
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现语义对齐。
多模态对齐
Transformers

L
LanguageBind
25.71k
11
Languagebind Video FT
MIT
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现视频、红外、深度、音频等多种模态的语义对齐。
多模态对齐
Transformers

L
LanguageBind
22.97k
4
Languagebind Audio FT
MIT
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态间的纽带实现语义对齐。
多模态对齐
Transformers

L
LanguageBind
12.59k
1
Languagebind Video Merge
MIT
LanguageBind是一种通过基于语言的语义对齐将视频-语言预训练扩展至N模态的多模态模型,获得了ICLR 2024的接收。
多模态对齐
Transformers

L
LanguageBind
10.96k
4
E5 V
E5-V是基于多模态大语言模型的通用嵌入方法,能够处理文本和图像输入并生成统一的嵌入表示。
多模态对齐
Transformers

E
royokong
5,619
22
M BERT Base ViT B
基于BERT-base-multilingual微调的多语言CLIP文本编码器,支持69种语言与CLIP视觉编码器对齐
多模态对齐
M
M-CLIP
3,376
12
M3D CLIP
Apache-2.0
M3D-CLIP是专为3D医学影像设计的CLIP模型,通过对比损失实现视觉与语言的对齐。
多模态对齐
Transformers

M
GoodBaiBai88
2,962
9
Languagebind Video Huge V1.5 FT
MIT
LanguageBind 是一种通过语言实现多模态语义对齐的预训练模型,能够将视频、音频、深度、热成像等多种模态与语言进行绑定,实现跨模态的理解和检索。
多模态对齐
Transformers

L
LanguageBind
2,711
4
Languagebind Depth
MIT
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现视频、红外、深度、音频等多种模态的语义对齐。
多模态对齐
Transformers

L
LanguageBind
898
0
Languagebind Thermal
MIT
LanguageBind是一个通过语言作为纽带实现多模态语义对齐的预训练框架,支持视频、红外、深度、音频等多种模态与语言的联合学习。
多模态对齐
Transformers

L
LanguageBind
887
1
Languagebind Video V1.5 FT
MIT
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现多模态语义对齐。
多模态对齐
Transformers

L
LanguageBind
853
5
Fg Clip Large
Apache-2.0
FG-CLIP是一种细粒度视觉与文本对齐模型,通过两阶段训练实现全局和区域级的图文对齐,提升细粒度视觉理解能力。
多模态对齐
Transformers 英语

F
qihoo360
538
3
Unime LLaVA OneVision 7B
MIT
UniME是一个基于多模态大模型的通用嵌入学习框架,通过文本判别知识蒸馏和硬负样本增强的指令调优策略,显著提升了多模态嵌入能力。
多模态对齐
Transformers 英语

U
DeepGlint-AI
376
2
Languagebind Audio
MIT
LanguageBind 是一种以语言为中心的多模态预训练方法,通过语言语义对齐将视频-语言预训练扩展至N模态,实现了高性能的多模态理解与对齐。
多模态对齐
Transformers

L
LanguageBind
271
3
Internvl3 8B
Apache-2.0
InternVL3-8B 是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,能处理图像、视频等多模态数据。
多模态对齐
Transformers

I
unsloth
224
1
Languagebind Video
MIT
LanguageBind是一种通过语言语义对齐将视频-语言预训练扩展至N模态的多模态预训练框架,被ICLR 2024收录。
多模态对齐
Transformers

L
LanguageBind
166
2
Clap Asm
MIT
CLAP是通过自然语言监督学习二进制代码表征的框架,通过将二进制代码与自然语言描述对齐,提升分析性能。
多模态对齐
Transformers

C
hustcw
102
19
Emova Qwen 2 5 3b Hf
Apache-2.0
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,具备情感语音对话能力。
多模态对齐
Transformers 支持多种语言

E
Emova-ollm
101
5
Hpt Base
HPT是一种将不同实体对齐到共享潜在空间的变换器模型,专注于策略学习中的扩展行为研究。
多模态对齐
Transformers

H
liruiw
70
10
Unime Phi3.5 V 4.2B
MIT
UniME 是一个基于多模态大模型的通用嵌入学习模型,专注于打破模态壁垒,实现跨模态检索和嵌入学习。
多模态对齐
Transformers 英语

U
DeepGlint-AI
54
4