L

Languagebind Video V1.5 FT

LanguageBindによって開発
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として利用し、マルチモーダル意味アラインメントを実現します。
ダウンロード数 853
リリース時間 : 11/26/2023

モデル概要

LanguageBindは言語を異なるモダリティ(赤外線、深度、音声など)間の橋渡しとして拡張し、高性能なマルチモーダル意味アラインメントを実現しました。

モデル特徴

言語中心のマルチモーダルアラインメント
言語を異なるモダリティ間の絆として利用し、言語モダリティの豊富な意味情報を活用してマルチモーダルアラインメントを実現します。
マルチモーダルで完全にアラインメントされたデータセット
VIDAL-10Mデータセットを提供し、1000万のデータを含み、ビデオ、赤外線、深度、音声および対応する言語をカバーしています。
マルチビュー拡張されたトレーニング記述
メタデータ、空間および時間情報を組み合わせてマルチビュー記述を生成し、ChatGPTを使用して言語の意味を強化します。

モデル能力

マルチモーダル意味アラインメント
ビデオ-言語事前学習
赤外線-言語アラインメント
深度-言語アラインメント
音声-言語アラインメント

使用事例

マルチモーダル理解
ビデオコンテンツ理解
ビデオと言語の共同事前学習を通じて、ビデオコンテンツの深い理解を実現します。
複数のデータセットで最先端の性能を達成
音声コンテンツ理解
音声と言語の共同事前学習を通じて、音声コンテンツの意味理解を実現します。
5つのデータセットで最先端の性能を達成
クロスモーダル検索
ビデオ-テキスト検索
ビデオコンテンツとテキスト記述間の効率的な検索を実現します。
音声-テキスト検索
音声コンテンツとテキスト記述間の効率的な検索を実現します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase