eilev-blip2-opt-2.7bオープンソースビジュアル言語モデル

ホーム

Eilev Blip2 Opt 2.7b

kpyuによって開発

BLIP-2-OPT-2.7Bを基に訓練された一人称視点ビデオ最適化視覚言語モデル、EILEV革新手法でコンテキスト学習能力を喚起

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #一人称ビデオ理解 #ゼロショットコンテキスト学習 #視覚言語共同モデリング

ダウンロード数 214

リリース時間 : 11/28/2023

モデル概要

一人称視点ビデオに最適化された視覚言語モデルで、ビデオとテキスト間のコンテキスト学習を実行可能、Ego4Dデータセットで訓練

モデル特徴

EILEV訓練手法

膨大な自然動画データセット不要で視覚言語モデルの動画内コンテキスト学習能力を喚起

一人称視点最適化

一人称視点ビデオコンテンツに特化して最適化

クロスモーダル学習

ビデオとテキストの関連性を理解し、クロスモーダル学習を実行可能

モデル能力

ビデオキャプション生成

画像キャプション生成

視覚的質問応答

ビデオからテキスト

画像からテキスト

使用事例

ビデオ理解

一人称ビデオキャプション生成

一人称視点ビデオに自動的に記述的キャプションを生成

画像理解

画像記述生成

画像に自然言語記述を生成

質問応答システム

視覚的質問応答

画像やビデオ内容に関する自然言語質問に回答

🚀 EILEV BLIP-2-OPT-2.7B モデルカード

EILEV BLIP-2-OPT-2.7Bは、エゴセントリックビデオに最適化されたビジョン言語モデル（VLM）です。ビデオとテキストに対してコンテキスト内学習を行うことができ、Ego4Dデータセットで学習されています。

Teaser

Salesforce/blip2-opt-2.7b は、EILeV という新しい学習方法を用いて学習されています。この方法は、大規模な自然主義的ビデオデータセットを必要とせずに、ビデオ用のビジョン言語モデル（VLM）にコンテキスト内学習を誘発することができます。

📚 ドキュメント

モデルの説明

EILEV BLIP-2-OPT-2.7Bは、エゴセントリックビデオに最適化されたVLMです。ビデオとテキストに対してコンテキスト内学習を行うことができます。このモデルはEgo4Dデータセットで学習されています。

モデルのソース

リポジトリ: https://github.com/yukw777/EILEV
論文: https://arxiv.org/abs/2311.17041
デモ: https://2e09-141-212-106-177.ngrok-free.app

🔧 技術詳細

バイアス、リスク、および制限事項

EILEV BLIP-2-OPT-2.7Bは、既存のOPTを言語モデルとして使用しています。このため、Metaのモデルカードで述べられているのと同じリスクや制限事項を引き継いでいます。

トレーニングデータの多様性（またはその欠如）がモデルの品質に下流的な影響を与える他の大規模言語モデルと同様に、OPT-175Bにはバイアスと安全性の面で制限があります。OPT-175Bは、生成の多様性や幻覚の面でも品質上の問題がある可能性があります。一般的に、OPT-175Bは現代の大規模言語モデルを悩ませる数多くの問題から免れることはできません。

EILEV BLIP-2-OPT-2.7Bは、実世界のアプリケーションでテストされていません。したがって、いかなるアプリケーションにも直接展開すべきではありません。研究者は、まずモデルを展開する特定のコンテキストに関連して、モデルの安全性と公平性を慎重に評価する必要があります。