L

Languagebind Video Huge V1.5 FT

LanguageBindによって開発
LanguageBindは、言語を通じてマルチモーダルの意味的アラインメントを実現する事前学習モデルで、ビデオ、オーディオ、深度、サーモグラフィーなどの様々なモダリティと言語をバインドし、クロスモーダルの理解と検索を可能にします。
ダウンロード数 2,711
リリース時間 : 12/15/2023

モデル概要

LanguageBindは、言語を中核としたマルチモーダル事前学習のパラダイムを採用し、言語を橋渡しとして異なるモダリティを接続し、言語モダリティの豊かな意味を十分に活用します。このモデルは、ビデオ、オーディオ、深度、サーモグラフィーなどの様々なモダリティと言語の相互作用をサポートします。

モデル特徴

言語を中核としたマルチモーダルアラインメント
言語を橋渡しとして異なるモダリティ間の意味的アラインメントを実現し、中間モダリティ変換を必要としません
複数のモダリティをサポート
ビデオ、オーディオ、深度マップ、サーモグラフィーなどの様々なモダリティデータを処理できます
大規模なトレーニングデータ
VIDAL-10Mデータセットを使用し、1000万件のマルチモーダルアラインメントデータを含みます
高性能なクロスモーダル検索
複数のベンチマークテストで最先端の性能を達成しました

モデル能力

ビデオ-言語検索
オーディオ-言語検索
深度マップ-言語検索
サーモグラフィー-言語検索
マルチモーダル類似度計算
クロスモーダル意味理解

使用事例

ビデオ理解
ビデオコンテンツ検索
テキスト記述に基づいて関連するビデオクリップを検索
MSR-VTTデータセットで44.8%の検索精度を達成
オーディオ分析
オーディオイベント検出
テキスト記述を通じてオーディオ内の特定のイベントを識別
複数のオーディオデータセットで最先端の性能を達成
特殊視覚モダリティ処理
サーモグラフィー分析
サーモグラフィー画像を理解し、テキスト記述とアラインメント
深度マップ理解
深度マップ情報を解析し、言語記述とマッチング
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase