eilev-blip2-opt-2.7b開源視覺語言模型 - 優化第一人稱視角視頻解讀

首頁

Eilev Blip2 Opt 2.7b

由kpyu開發

基於BLIP-2-OPT-2.7B訓練的第一人稱視角視頻優化視覺語言模型，採用EILEV創新方法激發上下文學習能力

圖像生成文本

Transformers

英語開源協議:MIT #第一人稱視頻理解 #零樣本上下文學習 #視覺語言聯合建模

下載量 214

發布時間 : 11/28/2023

模型概述

針對第一人稱視角視頻優化的視覺語言模型，能夠執行跨視頻與文本的上下文學習，基於Ego4D數據集訓練

模型特點

EILEV訓練方法

無需海量自然視頻數據集即可激發視覺語言模型在視頻中的上下文學習能力

第一人稱視角優化

專門針對第一人稱視角視頻內容進行優化

跨模態學習

能夠理解視頻與文本之間的關聯，進行跨模態學習

模型能力

視頻字幕生成

圖像字幕生成

視覺問答

視頻轉文本

圖像轉文本

使用案例

視頻理解

第一人稱視頻字幕生成

為第一人稱視角視頻自動生成描述性字幕

圖像理解

圖像描述生成

為圖像生成自然語言描述

問答系統

視覺問答

回答關於圖像或視頻內容的自然語言問題

屬性	詳情
模型類型	視覺語言模型（VLM）
訓練數據	Ego4D
標籤	視頻轉文本、視頻字幕生成、圖像轉文本、圖像字幕生成、視覺問答、BLIP - 2
庫名稱	transformers
任務類型	圖像轉文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Eilev Blip2 Opt 2.7b

模型概述

模型特點

模型能力

使用案例

🚀 EILEV BLIP - 2 - OPT - 2.7B模型卡片

📚 詳細文檔

🔍 模型描述

🌐 模型來源

⚠️ 偏差、風險和侷限性

🚀 快速開始

📄 許可證