E

Eilev Blip2 Flan T5 Xl

kpyuによって開発
一人称視点ビデオに最適化された視覚言語モデル。EILEVの革新的なトレーニング手法でコンテキスト学習能力を喚起
ダウンロード数 135
リリース時間 : 11/28/2023

モデル概要

BLIP-2とFlan-T5-xlでトレーニングされた視覚言語モデル。一人称視点ビデオ理解に特化しており、ビデオとテキスト間のコンテキスト学習タスクを実行可能

モデル特徴

EILEVトレーニング手法
大規模な自然動画データセットが不要で、視覚言語モデルの動画内コンテキスト学習能力を喚起
一人称視点最適化
一人称視点の動画データに特化して最適化されたトレーニング
クロスモーダル理解
ビデオとテキスト間のコンテキスト学習タスクを処理可能

モデル能力

ビデオからテキスト
ビデオ字幕生成
画像からテキスト
画像字幕生成
視覚的質問応答
クロスモーダルコンテキスト理解

使用事例

動画理解
一人称動画字幕生成
一人称視点の動画に自動的に記述的な字幕を生成
動画内容質問応答
動画内容に関する自然言語質問に回答
画像理解
画像記述生成
入力画像に対して自然言語の記述を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase