E

Eilev Blip2 Opt 2.7b

由kpyu開發
基於BLIP-2-OPT-2.7B訓練的第一人稱視角視頻優化視覺語言模型,採用EILEV創新方法激發上下文學習能力
下載量 214
發布時間 : 11/28/2023

模型概述

針對第一人稱視角視頻優化的視覺語言模型,能夠執行跨視頻與文本的上下文學習,基於Ego4D數據集訓練

模型特點

EILEV訓練方法
無需海量自然視頻數據集即可激發視覺語言模型在視頻中的上下文學習能力
第一人稱視角優化
專門針對第一人稱視角視頻內容進行優化
跨模態學習
能夠理解視頻與文本之間的關聯,進行跨模態學習

模型能力

視頻字幕生成
圖像字幕生成
視覺問答
視頻轉文本
圖像轉文本

使用案例

視頻理解
第一人稱視頻字幕生成
為第一人稱視角視頻自動生成描述性字幕
圖像理解
圖像描述生成
為圖像生成自然語言描述
問答系統
視覺問答
回答關於圖像或視頻內容的自然語言問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase