LanguageBind_Video_V1.5_FT开源模型 - 以语言为纽带实现多模态语义对齐应用

首页

Languagebind Video V1.5 FT

由 LanguageBind 开发

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现多模态语义对齐。

多模态对齐

Transformers

开源协议:MIT #多模态语义对齐 #零样本学习 #视频-语言预训练

下载量 853

发布时间 : 11/26/2023

模型简介

LanguageBind通过将语言作为不同模态之间的桥梁，扩展了视频-语言预训练至多种模态（如红外、深度、音频等），实现了高性能的多模态语义对齐。

模型特点

以语言为中心的多模态对齐

将语言作为不同模态之间的纽带，利用语言模态丰富的语义信息实现多模态对齐。

多模态、完全对齐的数据集

提供VIDAL-10M数据集，包含1000万数据，涵盖视频、红外、深度、音频及其对应的语言。

多视角增强的训练描述

通过结合元数据、空间和时间信息生成多视角描述，并使用ChatGPT增强语言语义。

模型能力

多模态语义对齐

视频-语言预训练

红外-语言对齐

深度-语言对齐

音频-语言对齐

使用案例

多模态理解

视频内容理解

通过视频和语言的联合预训练，实现对视频内容的深度理解。

在多个数据集上实现最先进的性能

音频内容理解

通过音频和语言的联合预训练，实现对音频内容的语义理解。

在5个数据集上实现最先进的性能

跨模态检索

视频-文本检索

实现视频内容与文本描述之间的高效检索。

音频-文本检索

实现音频内容与文本描述之间的高效检索。

🚀 【ICLR 2024 🔥】LanguageBind: 通过基于语言的语义对齐将视频-语言预训练扩展到N模态

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言绑定不同模态，可轻松扩展到分割、检测等任务。同时，项目提出了包含视频、红外、深度、音频和语言五种模态的VIDAL - 10M数据集，并对语言进行多视图增强，以提升训练效果。

🚀 快速开始

如果您喜欢我们的项目，请在GitHub上给我们一个星星 ⭐ 以获取最新更新。

✨ 主要特性

💡 高性能，无需中间模态

LanguageBind是一种以语言为中心的多模态预训练方法，以语言作为不同模态之间的纽带，因为语言模态已经得到了充分的研究，并且包含丰富的语义信息。

下图展示了LanguageBind的架构。LanguageBind可以轻松扩展到分割、检测任务，并且有可能扩展到无限的模态。

⚡️ 多模态、完全对齐且海量的数据集

我们提出了VIDAL - 10M，这是一个包含1000万条数据的数据集，涵盖了视频（Video）、红外（Infrared）、深度（Depth）、音频（Audio）以及它们对应的语言（Language），极大地扩展了视觉模态之外的数据。

第二张图展示了我们提出的VIDAL - 10M数据集，它包含视频、红外、深度、音频和语言五种模态。

🔥 用于训练的多视图增强描述

我们对语言进行了多视图增强。我们生成了结合元数据、空间和时间的多视图描述，以极大地增强语言的语义信息。此外，我们还使用ChatGPT进一步增强语言，为每个模态对齐的语言创建一个良好的语义空间。

📦 安装指南

环境要求

Python >= 3.8
Pytorch >= 1.13.1
CUDA Version >= 11.6

安装步骤

git clone https://github.com/PKU-YuanGroup/LanguageBind
cd LanguageBind
pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install -r requirements.txt

💻 使用示例

基础用法

我们在assets中提供了一些示例数据集，以便快速了解LanguageBind的工作原理。

import torch
from languagebind import LanguageBind, to_device, transform_dict, LanguageBindImageTokenizer

if __name__ == '__main__':
    device = 'cuda:0'
    device = torch.device(device)
    clip_type = {
        'video': 'LanguageBind_Video_FT',  # also LanguageBind_Video
        'audio': 'LanguageBind_Audio_FT',  # also LanguageBind_Audio
        'thermal': 'LanguageBind_Thermal',
        'image': 'LanguageBind_Image',
        'depth': 'LanguageBind_Depth',
    }

    model = LanguageBind(clip_type=clip_type, cache_dir='./cache_dir')
    model = model.to(device)
    model.eval()
    pretrained_ckpt = f'lb203/LanguageBind_Image'
    tokenizer = LanguageBindImageTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir/tokenizer_cache_dir')
    modality_transform = {c: transform_dict[c](model.modality_config[c]) for c in clip_type.keys()}

    image = ['assets/image/0.jpg', 'assets/image/1.jpg']
    audio = ['assets/audio/0.wav', 'assets/audio/1.wav']
    video = ['assets/video/0.mp4', 'assets/video/1.mp4']
    depth = ['assets/depth/0.png', 'assets/depth/1.png']
    thermal = ['assets/thermal/0.jpg', 'assets/thermal/1.jpg']
    language = ["Training a parakeet to climb up a ladder.", 'A lion climbing a tree to catch a monkey.']

    inputs = {
        'image': to_device(modality_transform['image'](image), device),
        'video': to_device(modality_transform['video'](video), device),
        'audio': to_device(modality_transform['audio'](audio), device),
        'depth': to_device(modality_transform['depth'](depth), device),
        'thermal': to_device(modality_transform['thermal'](thermal), device),
    }
    inputs['language'] = to_device(tokenizer(language, max_length=77, padding='max_length',
                                             truncation=True, return_tensors='pt'), device)

    with torch.no_grad():
        embeddings = model(inputs)

    print("Video x Text: \n",
          torch.softmax(embeddings['video'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Image x Text: \n",
          torch.softmax(embeddings['image'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Depth x Text: \n",
          torch.softmax(embeddings['depth'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Audio x Text: \n",
          torch.softmax(embeddings['audio'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Thermal x Text: \n",
          torch.softmax(embeddings['thermal'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())

运行上述代码后，将返回以下结果：

Video x Text: 
 [[9.9989331e-01 1.0667283e-04]
 [1.3255903e-03 9.9867439e-01]]
Image x Text: 
 [[9.9990666e-01 9.3292067e-05]
 [4.6132666e-08 1.0000000e+00]]
Depth x Text: 
 [[0.9954276  0.00457235]
 [0.12042473 0.8795753 ]]
Audio x Text: 
 [[0.97634876 0.02365119]
 [0.02917843 0.97082156]]
Thermal x Text: 
 [[0.9482511  0.0517489 ]
 [0.48746133 0.5125386 ]]

高级用法

应急零样本

由于LanguageBind将每个模态绑定在一起，我们还发现了应急零样本的用法。使用起来非常简单：

print("Video x Audio: \n", torch.softmax(embeddings['video'] @ embeddings['audio'].T, dim=-1).detach().cpu().numpy())
print("Image x Depth: \n", torch.softmax(embeddings['image'] @ embeddings['depth'].T, dim=-1).detach().cpu().numpy())
print("Image x Thermal: \n", torch.softmax(embeddings['image'] @ embeddings['thermal'].T, dim=-1).detach().cpu().numpy())

运行上述代码后，您将得到：

Video x Audio: 
 [[1.0000000e+00 0.0000000e+00]
 [3.1150486e-32 1.0000000e+00]]
Image x Depth: 
 [[1. 0.]
 [0. 1.]]
Image x Thermal: 
 [[1. 0.]
 [0. 1.]]

不同分支用于跨语言任务

此外，LanguageBind可以分解为不同的分支来处理不同的任务。请注意，我们没有对图像进行训练，只是从OpenCLIP进行初始化。

热成像（Thermal）

import torch
from languagebind import LanguageBindThermal, LanguageBindThermalTokenizer, LanguageBindThermalProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Thermal'
model = LanguageBindThermal.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindThermalTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
thermal_process = LanguageBindThermalProcessor(model.config, tokenizer)

model.eval()
data = thermal_process([r"your/thermal.jpg"], ['your text'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

深度（Depth）

import torch
from languagebind import LanguageBindDepth, LanguageBindDepthTokenizer, LanguageBindDepthProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Depth'
model = LanguageBindDepth.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindDepthTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
depth_process = LanguageBindDepthProcessor(model.config, tokenizer)

model.eval()
data = depth_process([r"your/depth.png"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

视频（Video）

import torch
from languagebind import LanguageBindVideo, LanguageBindVideoTokenizer, LanguageBindVideoProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Video_FT'  # also 'LanguageBind/LanguageBind_Video'
model = LanguageBindVideo.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindVideoTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
video_process = LanguageBindVideoProcessor(model.config, tokenizer)

model.eval()
data = video_process(["your/video.mp4"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

音频（Audio）

import torch
from languagebind import LanguageBindAudio, LanguageBindAudioTokenizer, LanguageBindAudioProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Audio_FT'  # also 'LanguageBind/LanguageBind_Audio'
model = LanguageBindAudio.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindAudioTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
audio_process = LanguageBindAudioProcessor(model.config, tokenizer)

model.eval()
data = audio_process([r"your/audio.wav"], ['your audio.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

图像（Image） 请注意，我们的图像编码器与OpenCLIP相同。不像其他模态那样进行了微调。

import torch
from languagebind import LanguageBindImage,  LanguageBindImageTokenizer,  LanguageBindImageProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Image'
model = LanguageBindImage.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindImageTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
image_process = LanguageBindImageProcessor(model.config, tokenizer)

model.eval()
data = image_process([r"your/image.jpg"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

📚 详细文档

📰 新闻动态

[2024.01.27] 👀👀👀 我们的MoE - LLaVA发布了！一个30亿参数的稀疏模型性能超过了70亿参数的密集模型。
[2024.01.16] 🔥🔥🔥 我们的LanguageBind已被ICLR 2024接收！我们在这里这里获得了6(3)8(6)6(6)6(6)的评分。
[2023.12.15] 💪💪💪 我们扩展了💥💥💥 VIDAL数据集，现在有1000万条视频 - 文本数据。我们推出了LanguageBind_Video 1.5，查看我们的模型库。
[2023.12.10] 我们扩展了💥💥💥 VIDAL数据集，现在有1000万条深度数据和1000万条热成像数据。我们正在Hugging Face上上传热成像和深度数据，预计整个过程将持续1 - 2个月。
[2023.11.27] 🔥🔥🔥 我们更新了我们的论文，包含了应急零样本结果。查看我们的✨ 结果。
[2023.11.26] 💥💥💥 我们在这里这里开源了所有文本来源和相应的YouTube ID。
[2023.11.26] 📣📣📣 我们开源了完全微调的视频和音频模型，性能再次得到提升，查看我们的模型库。
[2023.11.22] 我们即将发布一个完全微调的版本，大型版本目前正在训练中。
[2023.11.21] 💥 我们在DATASETS.md中发布了样本数据，以便感兴趣的人可以进一步修改代码，在自己的数据上进行训练。
[2023.11.20] 🚀🚀🚀 Video - LLaVA基于LanguageBind编码器构建了一个大型视觉 - 语言模型，实现了🎉SOTA性能。
[2023.10.23] 🎶 LanguageBind - Audio在5个数据集上实现了🎉🎉🎉最先进（SOTA）性能，查看我们的✨ 结果！
[2023.10.14] 😱 发布了更强大的LanguageBind - Video，查看我们的✨ [结果](#视频 - 语言)！视频检查点已在Huggingface模型中心更新！
[2023.10.10] 我们提供了样本数据，可以在assets中找到，并描述了应急零样本用法。
[2023.10.07] 检查点可在🤗 Huggingface模型上获取。
[2023.10.04] 代码和演示现已可用！欢迎关注 👀 这个仓库以获取最新更新。

🤗 演示

本地演示：强烈建议尝试我们的网页演示，它包含了LanguageBind目前支持的所有功能。

python gradio_app.py

在线演示：我们在Huggingface Spaces中提供了在线演示。在这个演示中，您可以计算模态与语言之间的相似度，例如音频与语言、视频与语言以及深度与图像之间的相似度。

🐳 模型库

表格中的名称代表不同的编码器模型。例如，LanguageBind/LanguageBind_Video_FT 代表完全微调的版本，而 LanguageBind/LanguageBind_Video 代表LoRA微调的版本。

您可以在推荐的API用法中自由替换它们。我们建议使用完全微调的版本，因为它具有更强的性能。

模态	LoRA微调	完全微调
视频	LanguageBind_Video	LanguageBind_Video_FT
音频	LanguageBind_Audio	LanguageBind_Audio_FT
深度	LanguageBind_Depth	-
热成像	LanguageBind_Thermal	-

版本	微调方式	模型大小	帧数	Hugging Face链接	MSR - VTT	DiDeMo	ActivityNet	MSVD
LanguageBind_Video	LoRA	大型	8	链接	42.6	37.8	35.1	52.2
LanguageBind_Video_FT	完全微调	大型	8	链接	42.7	38.1	36.9	53.5
LanguageBind_Video_V1.5_FT	完全微调	大型	8	链接	42.8	39.7	38.4	54.1
LanguageBind_Video_V1.5_FT	完全微调	大型	12	即将推出	-	-	-	-
LanguageBind_Video_Huge_V1.5_FT	完全微调	超大型	8	链接	44.8	39.9	41.0	53.7
LanguageBind_Video_Huge_V1.5_FT	完全微调	超大型	12	即将推出	-	-	-	-

💥 VIDAL - 10M

数据集详情请参考DATASETS.md。

🗝️ 训练与验证

训练和验证说明请参考TRAIN_AND_VALIDATE.md。

👍 致谢

OpenCLIP 一个开源的预训练框架。
CLIP4Clip 一个开源的视频 - 文本检索框架。
sRGB - TIR 一个开源的生成红外（热成像）图像的框架。
GLPN 一个开源的生成深度图像的框架。

📄 许可证

本项目的大部分内容遵循MIT许可证，详情见LICENSE文件。
本项目的数据集遵循CC - BY - NC 4.0许可证，详情见DATASET_LICENSE文件。

✏️ 引用

如果您发现我们的论文和代码在您的研究中很有用，请考虑给我们一个星星 :star: 并进行引用 :pencil:。

@misc{zhu2023languagebind,
      title={LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment}, 
      author={Bin Zhu and Bin Lin and Munan Ning and Yang Yan and Jiaxi Cui and Wang HongFa and Yatian Pang and Wenhao Jiang and Junwu Zhang and Zongwei Li and Cai Wan Zhang and Zhifeng Li and Wei Liu and Li Yuan},
      year={2023},
      eprint={2310.01852},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}