eilev - blip2 - flan - t5-xlオープンソース視覚言語モデル - 第一人称視点のビデオコンテンツ理解を最適化

ホーム

Eilev Blip2 Flan T5 Xl

kpyuによって開発

一人称視点ビデオに最適化された視覚言語モデル。EILEVの革新的なトレーニング手法でコンテキスト学習能力を喚起

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #一人称ビデオ理解 #ゼロショットコンテキスト学習 #視覚的質問応答最適化

ダウンロード数 135

リリース時間 : 11/28/2023

モデル概要

BLIP-2とFlan-T5-xlでトレーニングされた視覚言語モデル。一人称視点ビデオ理解に特化しており、ビデオとテキスト間のコンテキスト学習タスクを実行可能

モデル特徴

EILEVトレーニング手法

大規模な自然動画データセットが不要で、視覚言語モデルの動画内コンテキスト学習能力を喚起

一人称視点最適化

一人称視点の動画データに特化して最適化されたトレーニング

クロスモーダル理解

ビデオとテキスト間のコンテキスト学習タスクを処理可能

モデル能力

ビデオからテキスト

ビデオ字幕生成

画像からテキスト

画像字幕生成

視覚的質問応答

クロスモーダルコンテキスト理解

使用事例

動画理解

一人称動画字幕生成

一人称視点の動画に自動的に記述的な字幕を生成

動画内容質問応答

動画内容に関する自然言語質問に回答

画像理解

画像記述生成

入力画像に対して自然言語の記述を生成

🚀 EILEV BLIP-2-Flan-T5-xl モデルカード

Teaser

Salesforce/blip2-flan-t5-xl は、EILeV という新しいトレーニング手法を用いてトレーニングされています。この手法は、大規模な自然主義的なビデオデータセットを必要とせずに、ビデオ用のビジョン言語モデル（VLM）にコンテキスト内学習を誘発することができます。

🚀 クイックスタート

モデルの使い始め方については、公式リポジトリをご確認ください：https://github.com/yukw777/EILEV

✨ 主な機能

EILEV BLIP-2-Flan-T5-xl は、エゴセントリックビデオに最適化された VLM です。ビデオとテキストに対してコンテキスト内学習を行うことができます。Ego4D データセットでトレーニングされています。

📚 ドキュメント

モデルの詳細説明

EILEV BLIP-2-Flan-T5-xl は、エゴセントリックビデオに最適化されたビジョン言語モデル（VLM）です。ビデオとテキストに対してコンテキスト内学習を行うことができます。このモデルは Ego4D データセットでトレーニングされています。

モデルのソース

リポジトリ: https://github.com/yukw777/EILEV
論文: https://arxiv.org/abs/2311.17041
デモ: https://2e09-141-212-106-177.ngrok-free.app

🔧 技術詳細

EILEV BLIP-2-OPT-2.7B は、既存の Flan-T5 を言語モデルとして使用しています。このため、Flan-T5 と同じリスクと制限を引き継いでいます。

Rae ら（2021）によると、Flan-T5 を含む言語モデルは、有害な方法での言語生成に潜在的に利用される可能性があります。Flan-T5 は、アプリケーション固有の安全性と公正性の懸念を事前に評価せずに、直接アプリケーションに使用すべきではありません。

EILEV BLIP-2-OPT-2.7B は、実世界のアプリケーションでテストされていません。直接アプリケーションにデプロイすべきではありません。研究者は、まずモデルをデプロイする特定のコンテキストに関連する安全性と公正性を慎重に評価する必要があります。

📄 ライセンス

このモデルは MIT ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご