L

Languagebind Audio FT

LanguageBindによって開発
LanguageBindは、言語を異なるモーダル間の結びつきとして、意味論的アラインメントを実現する言語中心のマルチモーダル事前学習手法です。
ダウンロード数 12.59k
リリース時間 : 11/26/2023

モデル概要

LanguageBindは、言語に基づく意味論的アラインメントにより、ビデオ - 言語事前学習をNモーダルに拡張し、ビデオ、音声、深度、熱画像などの複数のモーダルの連合学習をサポートします。

モデル特徴

言語中心のマルチモーダルアラインメント
言語を異なるモーダル間の結びつきとして、ビデオ、音声、深度などのマルチモーダルの意味論的アラインメントを実現します。
大量のマルチモーダルデータセット
VIDAL - 10Mデータセットを使用し、1000万のビデオ、赤外線、深度、音声およびそれに対応する言語データが含まれています。
多視点強化記述学習
メタデータ、空間および時間情報から多視点記述を生成し、ChatGPTを利用して言語の意味論を強化します。

モデル能力

ビデオ - 言語検索
音声 - 言語検索
深度 - 言語検索
熱画像 - 言語検索
クロスモーダル意味論的類似度計算

使用事例

ビデオ理解
ビデオ内容検索
テキスト記述に基づいて関連するビデオクリップを検索します。
MSR - VTTデータセットで42.7%の正解率を達成しました。
音声分析
音声イベント検出
テキスト記述により音声中のイベントを識別します。
複数の音声データセットでSOTA性能を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase