开源LanguageBind_Thermal模型 - 支持多模态与语言联合学习，轻松语义对齐

首页

Languagebind Thermal

由 LanguageBind 开发

LanguageBind是一个通过语言作为纽带实现多模态语义对齐的预训练框架，支持视频、红外、深度、音频等多种模态与语言的联合学习。

多模态对齐

Transformers

开源协议:MIT #多模态对齐 #零样本学习 #语义增强

下载量 887

发布时间 : 10/6/2023

模型简介

该模型通过语言模态作为中心纽带，将视频、音频、红外、深度等多种模态的语义空间对齐，实现跨模态的理解与生成能力。

模型特点

语言为中心的多模态对齐

以语言模态为纽带实现视频、音频、红外、深度等多种模态的语义空间对齐

海量多模态数据集

提供VIDAL-10M数据集，包含1000万视频、红外、深度、音频及对应语言数据

多视角语言增强

融合元数据、空间和时序信息构建多视角描述，并通过ChatGPT优化语义表达

灵活扩展性

架构设计支持轻松扩展到分割、检测等任务，理论上支持无限模态

模型能力

跨模态检索

视频-语言理解

音频-语言理解

红外图像理解

深度图像理解

多模态联合表征学习

使用案例

智能监控

多模态异常检测

结合视频、红外和深度数据检测异常行为

提升复杂环境下的检测准确率

自动驾驶

环境感知增强

融合视觉、热成像和深度数据理解道路场景

改善夜间和恶劣天气条件下的感知能力

人机交互

多模态指令理解

同时处理语音指令和视觉场景

实现更自然的人机交互体验

🚀 【ICLR 2024 🔥】LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

LanguageBind是一种以语言为中心的多模态预训练方法，通过基于语言的语义对齐，将视频-语言预训练扩展到N种模态，为多模态任务提供了强大的支持。

📦 安装指南

环境要求
- Python >= 3.8
- Pytorch >= 1.13.1
- CUDA Version >= 11.6
安装步骤

git clone https://github.com/PKU-YuanGroup/LanguageBind
cd LanguageBind
pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install -r requirements.txt

🚀 快速开始

📰 项目动态

[2024.01.27] 👀👀👀 我们的 MoE-LLaVA 发布！一个30亿参数的稀疏模型性能超过了70亿参数的密集模型。
[2024.01.16] 🔥🔥🔥 我们的 LanguageBind 被 ICLR 2024 接收！我们获得了6(3)8(6)6(6)6(6)的评分详情。
[2023.12.15] 💪💪💪 我们扩展了 💥💥💥 VIDAL 数据集，现在有 1000万视频-文本数据。我们发布了 LanguageBind_Video 1.5，查看我们的模型库。
[2023.12.10] 我们扩展了 💥💥💥 VIDAL 数据集，现在有 1000万深度数据和1000万热成像数据。我们正在 Hugging Face 上上传热成像和深度数据，预计整个过程将持续1 - 2个月。
[2023.11.27] 🔥🔥🔥 我们更新了论文，包含紧急零样本结果，查看我们的 ✨ 结果。
[2023.11.26] 💥💥💥 我们开源了所有文本源和对应的 YouTube ID 详情。
[2023.11.26] 📣📣📣 我们开源了完全微调的 视频 & 音频 模型，性能再次提升，查看我们的模型库。
[2023.11.22] 我们即将发布完全微调版本，超大版本 目前正在训练中。
[2023.11.21] 💥 我们在 DATASETS.md 中发布了示例数据，感兴趣的人可以进一步修改代码，在自己的数据上进行训练。
[2023.10.23] 🎶 LanguageBind-Audio 在5个数据集上取得了 🎉🎉🎉最优 (SOTA) 性能，查看我们的 ✨ 结果！
[2023.10.14] 😱 发布了更强的 LanguageBind-Video，查看我们的 ✨ 结果！视频检查点已在 Huggingface 模型中心更新！
[2023.10.10] 我们提供了示例数据，可在 assets 中找到，并描述了紧急零样本使用方法。
[2023.10.07] 检查点可在 🤗 Huggingface 模型上获取。
[2023.10.04] 代码和演示现已可用！欢迎关注 👀 此仓库以获取最新更新。

✨ 主要特性

💡 高性能，无需中间模态

LanguageBind是一种 以语言为中心 的多模态预训练方法，以语言作为不同模态之间的纽带，因为语言模态已经得到了充分的探索，并且包含丰富的语义。

下图展示了 LanguageBind 的架构。LanguageBind 可以轻松扩展到分割、检测任务，并且有可能扩展到无限的模态。

⚡️ 多模态、完全对齐且海量的数据集

我们提出了 VIDAL-10M，即包含视频、红外、深度、音频及其对应的语言的 1000万条数据，大大扩展了视觉模态之外的数据。

第二张图展示了我们提出的 VIDAL-10M 数据集，它包括视频、红外、深度、音频和语言五种模态。

🔥 用于训练的多视图增强描述

我们对语言进行了多视图增强。我们生成了结合 元数据、空间和时间的多视图描述，大大增强了语言的语义信息。此外，我们还进一步 使用 ChatGPT 增强语言，为每个模态对齐的语言创建了一个良好的语义空间。

💻 使用示例

基础用法

import torch
from languagebind import LanguageBind, to_device, transform_dict, LanguageBindImageTokenizer

if __name__ == '__main__':
    device = 'cuda:0'
    device = torch.device(device)
    clip_type = {
        'video': 'LanguageBind_Video_FT',  # also LanguageBind_Video
        'audio': 'LanguageBind_Audio_FT',  # also LanguageBind_Audio
        'thermal': 'LanguageBind_Thermal',
        'image': 'LanguageBind_Image',
        'depth': 'LanguageBind_Depth',
    }

    model = LanguageBind(clip_type=clip_type, cache_dir='./cache_dir')
    model = model.to(device)
    model.eval()
    pretrained_ckpt = f'lb203/LanguageBind_Image'
    tokenizer = LanguageBindImageTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir/tokenizer_cache_dir')
    modality_transform = {c: transform_dict[c](model.modality_config[c]) for c in clip_type.keys()}

    image = ['assets/image/0.jpg', 'assets/image/1.jpg']
    audio = ['assets/audio/0.wav', 'assets/audio/1.wav']
    video = ['assets/video/0.mp4', 'assets/video/1.mp4']
    depth = ['assets/depth/0.png', 'assets/depth/1.png']
    thermal = ['assets/thermal/0.jpg', 'assets/thermal/1.jpg']
    language = ["Training a parakeet to climb up a ladder.", 'A lion climbing a tree to catch a monkey.']

    inputs = {
        'image': to_device(modality_transform['image'](image), device),
        'video': to_device(modality_transform['video'](video), device),
        'audio': to_device(modality_transform['audio'](audio), device),
        'depth': to_device(modality_transform['depth'](depth), device),
        'thermal': to_device(modality_transform['thermal'](thermal), device),
    }
    inputs['language'] = to_device(tokenizer(language, max_length=77, padding='max_length',
                                             truncation=True, return_tensors='pt'), device)

    with torch.no_grad():
        embeddings = model(inputs)

    print("Video x Text: \n",
          torch.softmax(embeddings['video'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Image x Text: \n",
          torch.softmax(embeddings['image'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Depth x Text: \n",
          torch.softmax(embeddings['depth'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Audio x Text: \n",
          torch.softmax(embeddings['audio'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())
    print("Thermal x Text: \n",
          torch.softmax(embeddings['thermal'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())

运行上述代码后会返回以下结果：

Video x Text: 
 [[9.9989331e-01 1.0667283e-04]
 [1.3255903e-03 9.9867439e-01]]
Image x Text: 
 [[9.9990666e-01 9.3292067e-05]
 [4.6132666e-08 1.0000000e+00]]
Depth x Text: 
 [[0.9954276  0.00457235]
 [0.12042473 0.8795753 ]]
Audio x Text: 
 [[0.97634876 0.02365119]
 [0.02917843 0.97082156]]
Thermal x Text: 
 [[0.9482511  0.0517489 ]
 [0.48746133 0.5125386 ]]

高级用法

# 紧急零样本使用方法，由于 languagebind 将每个模态绑定在一起，我们还发现了“紧急零样本”用法，使用非常简单
print("Video x Audio: \n", torch.softmax(embeddings['video'] @ embeddings['audio'].T, dim=-1).detach().cpu().numpy())
print("Image x Depth: \n", torch.softmax(embeddings['image'] @ embeddings['depth'].T, dim=-1).detach().cpu().numpy())
print("Image x Thermal: \n", torch.softmax(embeddings['image'] @ embeddings['thermal'].T, dim=-1).detach().cpu().numpy())

运行上述代码后会得到以下结果：

Video x Audio: 
 [[1.0000000e+00 0.0000000e+00]
 [3.1150486e-32 1.0000000e+00]]
Image x Depth: 
 [[1. 0.]
 [0. 1.]]
Image x Thermal: 
 [[1. 0.]
 [0. 1.]]

不同分支用于跨语言任务

此外，LanguageBind 可以 分解为不同的分支 来处理不同的任务。请注意，我们的图像编码器未进行微调，与 OpenCLIP 相同。

热成像分支

import torch
from languagebind import LanguageBindThermal, LanguageBindThermalTokenizer, LanguageBindThermalProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Thermal'
model = LanguageBindThermal.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindThermalTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
thermal_process = LanguageBindThermalProcessor(model.config, tokenizer)

model.eval()
data = thermal_process([r"your/thermal.jpg"], ['your text'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

深度分支

import torch
from languagebind import LanguageBindDepth, LanguageBindDepthTokenizer, LanguageBindDepthProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Depth'
model = LanguageBindDepth.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindDepthTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
depth_process = LanguageBindDepthProcessor(model.config, tokenizer)

model.eval()
data = depth_process([r"your/depth.png"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

视频分支

import torch
from languagebind import LanguageBindVideo, LanguageBindVideoTokenizer, LanguageBindVideoProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Video_FT'  # also 'LanguageBind/LanguageBind_Video'
model = LanguageBindVideo.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindVideoTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
video_process = LanguageBindVideoProcessor(model.config, tokenizer)

model.eval()
data = video_process(["your/video.mp4"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

音频分支

import torch
from languagebind import LanguageBindAudio, LanguageBindAudioTokenizer, LanguageBindAudioProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Audio_FT'  # also 'LanguageBind/LanguageBind_Audio'
model = LanguageBindAudio.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindAudioTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
audio_process = LanguageBindAudioProcessor(model.config, tokenizer)

model.eval()
data = audio_process([r"your/audio.wav"], ['your audio.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

图像分支

请注意，我们的图像编码器与 OpenCLIP 相同，未像其他模态那样进行微调。

import torch
from languagebind import LanguageBindImage,  LanguageBindImageTokenizer,  LanguageBindImageProcessor

pretrained_ckpt = 'LanguageBind/LanguageBind_Image'
model = LanguageBindImage.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
tokenizer = LanguageBindImageTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir')
image_process = LanguageBindImageProcessor(model.config, tokenizer)

model.eval()
data = image_process([r"your/image.jpg"], ['your text.'], return_tensors='pt')
with torch.no_grad():
    out = model(**data)

print(out.text_embeds @ out.image_embeds.T)

📚 详细文档

🤗 演示

本地演示：强烈建议尝试我们的网页演示，它集成了 LanguageBind 目前支持的所有功能。

python gradio_app.py

在线演示：我们在 Huggingface Spaces 上提供了在线演示。在这个演示中，你可以计算模态与语言之间的相似度，例如音频与语言、视频与语言、深度与图像之间的相似度。

🐳 模型库

以下表格展示了不同模态的编码器模型，表格中的名称代表不同的编码器模型。例如，LanguageBind/LanguageBind_Video_FT 代表完全微调版本，而 LanguageBind/LanguageBind_Video 代表 LoRA 微调版本。你可以在推荐的 API 用法中自由替换它们。我们建议使用完全微调版本，因为它具有更强的性能。

模态	LoRA 微调	完全微调
视频	LanguageBind_Video	LanguageBind_Video_FT
音频	LanguageBind_Audio	LanguageBind_Audio_FT
深度	LanguageBind_Depth	-
热成像	LanguageBind_Thermal	-

以下表格展示了不同版本的视频模型的详细信息：

版本	微调方式	模型大小	帧数	HF 链接	MSR-VTT	DiDeMo	ActivityNet	MSVD
LanguageBind_Video	LoRA	大	8	链接	42.6	37.8	35.1	52.2
LanguageBind_Video_FT	完全微调	大	8	链接	42.7	38.1	36.9	53.5
LanguageBind_Video_V1.5_FT	完全微调	大	8	链接	42.8	39.7	38.4	54.1
LanguageBind_Video_V1.5_FT	完全微调	大	12	即将推出	-	-	-	-
LanguageBind_Video_Huge_V1.5_FT	完全微调	超大	8	链接	44.8	39.9	41.0	53.7
LanguageBind_Video_Huge_V1.5_FT	完全微调	超大	12	即将推出	-	-	-	-

💥 VIDAL-10M

数据集详情见 DATASETS.md。

🗝️ 训练与验证

训练与验证说明见 TRAIN_AND_VALIDATE.md。

👍 致谢

OpenCLIP 一个开源预训练框架。
CLIP4Clip 一个开源视频-文本检索框架。
sRGB-TIR 一个用于生成红外（热成像）图像的开源框架。
GLPN 一个用于生成深度图像的开源框架。

📄 许可证

本项目的大部分内容遵循 MIT 许可证，详情见 LICENSE 文件。
本项目的数据集遵循 CC-BY-NC 4.0 许可证，详情见 DATASET_LICENSE 文件。

✏️ 引用

如果您发现我们的论文和代码对您的研究有用，请考虑给我们点个星星 :star: 并进行引用 :pencil:。

@misc{zhu2023languagebind,
      title={LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment}, 
      author={Bin Zhu and Bin Lin and Munan Ning and Yang Yan and Jiaxi Cui and Wang HongFa and Yatian Pang and Wenhao Jiang and Junwu Zhang and Zongwei Li and Cai Wan Zhang and Zhifeng Li and Wei Liu and Li Yuan},
      year={2023},
      eprint={2310.01852},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}