多模态对齐

2025年最佳的 22 个多模态对齐工具

ALIGN是一个视觉-语言双编码器模型，通过对比学习实现图像与文本表征的对齐，利用大规模噪声数据实现先进的跨模态表征效果。

多模态对齐

Transformers 英语

Biomedvlp CXR BERT Specialized

针对胸部X光领域优化的语言模型，通过改进词汇表、创新预训练流程和文本增强技术实现卓越性能

多模态对齐

Transformers 英语

Languagebind Image

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现语义对齐。

多模态对齐

Languagebind Video FT

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现视频、红外、深度、音频等多种模态的语义对齐。

多模态对齐

Languagebind Audio FT

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态间的纽带实现语义对齐。

多模态对齐

Languagebind Video Merge

LanguageBind是一种通过基于语言的语义对齐将视频-语言预训练扩展至N模态的多模态模型，获得了ICLR 2024的接收。

多模态对齐

E5-V是基于多模态大语言模型的通用嵌入方法，能够处理文本和图像输入并生成统一的嵌入表示。

多模态对齐

M BERT Base ViT B

基于BERT-base-multilingual微调的多语言CLIP文本编码器，支持69种语言与CLIP视觉编码器对齐

多模态对齐

M3D-CLIP是专为3D医学影像设计的CLIP模型，通过对比损失实现视觉与语言的对齐。

多模态对齐

Languagebind Video Huge V1.5 FT

LanguageBind 是一种通过语言实现多模态语义对齐的预训练模型，能够将视频、音频、深度、热成像等多种模态与语言进行绑定，实现跨模态的理解和检索。

多模态对齐

Languagebind Depth

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现视频、红外、深度、音频等多种模态的语义对齐。

多模态对齐

Languagebind Thermal

LanguageBind是一个通过语言作为纽带实现多模态语义对齐的预训练框架，支持视频、红外、深度、音频等多种模态与语言的联合学习。

多模态对齐

Languagebind Video V1.5 FT

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现多模态语义对齐。

多模态对齐

FG-CLIP是一种细粒度视觉与文本对齐模型，通过两阶段训练实现全局和区域级的图文对齐，提升细粒度视觉理解能力。

多模态对齐

Transformers 英语

Unime LLaVA OneVision 7B

UniME是一个基于多模态大模型的通用嵌入学习框架，通过文本判别知识蒸馏和硬负样本增强的指令调优策略，显著提升了多模态嵌入能力。

多模态对齐

Transformers 英语

Languagebind Audio

LanguageBind 是一种以语言为中心的多模态预训练方法，通过语言语义对齐将视频-语言预训练扩展至N模态，实现了高性能的多模态理解与对齐。

多模态对齐

InternVL3-8B 是一款先进的多模态大语言模型，具备卓越的多模态感知和推理能力，能处理图像、视频等多模态数据。

多模态对齐

Languagebind Video

LanguageBind是一种通过语言语义对齐将视频-语言预训练扩展至N模态的多模态预训练框架，被ICLR 2024收录。

多模态对齐

CLAP是通过自然语言监督学习二进制代码表征的框架，通过将二进制代码与自然语言描述对齐，提升分析性能。

多模态对齐

Emova Qwen 2 5 3b Hf

EMOVA是一种端到端全能模态大语言模型，支持视觉、听觉和语音功能，具备情感语音对话能力。

多模态对齐

Transformers 支持多种语言

HPT是一种将不同实体对齐到共享潜在空间的变换器模型，专注于策略学习中的扩展行为研究。

多模态对齐

Unime Phi3.5 V 4.2B

UniME 是一个基于多模态大模型的通用嵌入学习模型，专注于打破模态壁垒，实现跨模态检索和嵌入学习。

多模态对齐

Transformers 英语

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase