E

Eilev Blip2 Flan T5 Xl

由kpyu開發
針對第一人稱視角視頻優化的視覺語言模型,採用EILEV創新訓練方法激發上下文學習能力
下載量 135
發布時間 : 11/28/2023

模型概述

基於BLIP-2和Flan-T5-xl訓練的視覺語言模型,專門優化用於第一人稱視角視頻理解,能夠執行視頻與文本間的上下文學習任務

模型特點

EILEV訓練方法
無需海量自然視頻數據集即可激發視覺語言模型在視頻中的上下文學習能力
第一人稱視角優化
專門針對第一人稱視角視頻數據進行優化訓練
跨模態理解
能夠處理視頻與文本之間的上下文學習任務

模型能力

視頻轉文本
視頻字幕生成
圖像轉文本
圖像字幕生成
視覺問答
跨模態上下文理解

使用案例

視頻理解
第一人稱視頻字幕生成
為第一人稱視角視頻自動生成描述性字幕
視頻內容問答
回答關於視頻內容的自然語言問題
圖像理解
圖像描述生成
為輸入圖像生成自然語言描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase