L

Languagebind Video FT

LanguageBindによって開発
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、音声など様々なモダリティの意味的アライメントを実現します。
ダウンロード数 22.97k
リリース時間 : 11/26/2023

モデル概要

LanguageBindは革新的なマルチモーダル事前学習フレームワークで、言語を中核的な絆として、ビデオ、赤外線、深度、音声など様々なモダリティと言語間の意味的アライメントを実現しました。この手法はICLR 2024で発表され、マルチモーダルタスクにおける卓越した性能を示しています。

モデル特徴

言語中心のマルチモーダルアライメント
言語を異なるモダリティ間の絆として、言語モダリティの豊富な意味情報を活用してマルチモーダルアライメントを実現します。
大規模マルチモーダルデータセット
VIDAL-10Mデータセットを提案し、1000万のデータを含み、ビデオ、赤外線、深度、音声および対応する言語をカバーしています。
マルチビュー拡張トレーニング
メタデータ、空間および時間情報を組み合わせてマルチビュー記述を生成し、ChatGPTを使用して言語の意味を強化します。
容易な拡張性
アーキテクチャ設計により、セグメンテーション、検出タスクおよび潜在的に無限のモダリティへの容易な拡張をサポートします。

モデル能力

ビデオ-言語理解
音声-言語理解
赤外線-言語理解
深度-言語理解
クロスモーダル検索
マルチモーダル意味的アライメント

使用事例

ビデオ理解
ビデオコンテンツ検索
テキスト記述に基づいて関連するビデオコンテンツを検索
複数のベンチマークテストでSOTA性能を達成
音声理解
音声イベント認識
音声コンテンツに基づいてイベントタイプを識別
5つのデータセットでSOTA性能を達成
マルチモーダルインタラクション
クロスモーダル検索
ビデオ、音声、深度、赤外線とテキスト間の相互検索を実現
言語の絆を通じて効率的なクロスモーダル検索を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase