Eilev Blip2 Opt 2.7b
模型简介
针对第一人称视角视频优化的视觉语言模型,能够执行跨视频与文本的上下文学习,基于Ego4D数据集训练
模型特点
EILEV训练方法
无需海量自然视频数据集即可激发视觉语言模型在视频中的上下文学习能力
第一人称视角优化
专门针对第一人称视角视频内容进行优化
跨模态学习
能够理解视频与文本之间的关联,进行跨模态学习
模型能力
视频字幕生成
图像字幕生成
视觉问答
视频转文本
图像转文本
使用案例
视频理解
第一人称视频字幕生成
为第一人称视角视频自动生成描述性字幕
图像理解
图像描述生成
为图像生成自然语言描述
问答系统
视觉问答
回答关于图像或视频内容的自然语言问题
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98