L

Languagebind Video Merge

LanguageBindによって開発
LanguageBindは、言語ベースのセマンティックアラインメントを通じてビデオ-言語事前学習をNモーダルに拡張するマルチモーダルモデルで、ICLR 2024に採択されました。
ダウンロード数 10.96k
リリース時間 : 11/21/2023

モデル概要

LanguageBindは言語をコアとしたマルチモーダル事前学習手法を採用し、言語を介して異なるモーダルをバインドすることで、ビデオ、オーディオ、深度、サーモグラフィなど多様なモーダルのセマンティックアラインメントをサポートします。

モデル特徴

言語中心のマルチモーダルアラインメント
言語モーダルを橋渡しとして、ビデオ、オーディオ、深度、サーモグラフィなど多様なモーダルのセマンティックアラインメントを実現
大規模マルチモーダルデータセット
VIDAL-10Mデータセットを提供し、1000万のビデオ、赤外線、深度、オーディオと対応する言語データを含む
マルチビュー拡張記述学習
言語に対してマルチビュー拡張を行い、メタデータ、空間・時間情報を統合し、ChatGPTで言語記述を強化

モデル能力

ビデオ-言語セマンティックアラインメント
オーディオ-言語セマンティックアラインメント
深度画像-言語セマンティックアラインメント
サーモグラフィ-言語セマンティックアラインメント
クロスモーダル類似度計算

使用事例

ビデオ理解
ビデオ検索
テキストクエリを通じて関連ビデオコンテンツを検索
MSR-VTTデータセットで44.8のゼロショット検索精度を達成
オーディオ分析
オーディオイベント検出
オーディオ中の特定イベントや音を識別
5つのオーディオデータセットでSOTA性能を獲得
特殊視覚モーダル処理
サーモグラフィ分析
サーモグラフィ画像の内容と意味を理解
深度画像理解
深度画像中のシーンとオブジェクトを解析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase