L

Languagebind Image

LanguageBindによって開発
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として利用し、セマンティックアラインメントを実現します。
ダウンロード数 25.71k
リリース時間 : 10/6/2023

モデル概要

LanguageBindは言語ベースのセマンティックアラインメントにより、ビデオ-言語事前学習をNモダリティに拡張し、ビデオ、赤外線、深度、音声など様々なモダリティと言語の共同学習をサポートします。

モデル特徴

言語中心のマルチモーダルアラインメント
言語を異なるモダリティ間の絆として利用し、言語モダリティの豊富なセマンティック情報を活用してクロスモーダルアラインメントを実現します。
マルチモーダルで完全にアラインメントされたデータセット
VIDAL-10Mデータセットを提供し、1000万のデータを含み、ビデオ、赤外線、深度、音声および対応する言語をカバーします。
マルチビュー拡張記述
メタデータ、空間および時間情報を組み合わせてマルチビュー記述を生成し、ChatGPTを使用して言語セマンティクスを強化します。

モデル能力

ビデオ-言語アラインメント
音声-言語アラインメント
赤外線-言語アラインメント
深度-言語アラインメント
マルチモーダル共同学習

使用事例

ビデオ理解
ビデオセマンティック分析
言語記述を通じてビデオ内容を理解する
複数のデータセットでSOTA性能を達成
音声処理
音声セマンティック理解
音声内容と言語記述をアラインメントする
5つのデータセットでSOTA性能を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase