L

Languagebind Audio

LanguageBindによって開発
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語意味アラインメントによりビデオ-言語事前学習をNモーダルに拡張し、高性能なマルチモーダル理解とアラインメントを実現しています。
ダウンロード数 271
リリース時間 : 10/6/2023

モデル概要

LanguageBindは言語を異なるモダリティ間の絆として利用し、ビデオ、赤外線、深度、音声などの多様なモダリティを言語とアラインメントさせ、統一されたマルチモーダル意味空間を構築しています。

モデル特徴

言語中心のマルチモーダルアラインメント
言語を異なるモダリティ間の絆として使用し、ビデオ、音声、深度、熱画像などの多様なモダリティの意味的アラインメントを実現
マルチモーダル大規模データセット
1000万データを含むVIDAL-10Mデータセットで、ビデオ、赤外線、深度、音声および対応する言語をカバー
マルチビュー拡張記述
メタデータ、空間および時間情報を組み合わせたマルチビュー言語記述と、ChatGPTによる意味情報の強化
高性能ゼロショット学習
複数のベンチマークテストで最先端のゼロショット性能を達成

モデル能力

ビデオ-言語理解
音声-言語理解
深度-言語理解
熱画像-言語理解
マルチモーダル意味アラインメント
ゼロショットクロスモーダル検索

使用事例

ビデオ理解
ビデオコンテンツ検索
テキスト記述に基づいて関連するビデオクリップを検索
MSR-VTTデータセットで44.8%のゼロショット精度を達成
音声理解
音声イベント分類
音声コンテンツに基づいてイベントタイプを識別
5つのデータセットで最先端性能を実現
マルチモーダル融合
クロスモーダル検索
異なるモダリティ間でコンテンツ検索を実施
ビデオ、音声、深度、熱画像と言語のアラインメントを実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase