clip - gpt2 - finetuned开源模型 - 免费部署为视障人士实时描述图像内容

Home

Clip Gpt2 Finetuned

Developed by vidi-deshp

这是一个针对实时图像描述生成任务微调的CLIP-GPT2版本，旨在辅助视障人士理解图像内容。

图像生成文本

Transformers

#视障辅助 #实时图像描述 #CLIP-GPT2融合

Downloads 18

Release Time : 3/18/2025

Model Overview

该模型结合了CLIP的视觉理解能力和GPT-2的文本生成能力，专门针对图像描述生成任务进行了微调。

Model Features

辅助视障人士

专门为帮助视障人士理解图像内容而设计

实时生成

能够实时生成图像描述

多模态融合

结合视觉和语言模型的能力

Model Capabilities

图像理解

文本生成

图像描述生成

Use Cases

无障碍技术

视障辅助应用

为视障人士提供图像内容的语音描述

帮助视障人士更好地理解周围环境

内容生成

自动图像标注

为社交媒体图片自动生成描述

提高内容可访问性和搜索引擎优化

属性	详情
基础模型	CLIP ViT - B/32
微调数据集	VizWiz数据集
格式	SafeTensors

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Clip Gpt2 Finetuned

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 用于图像描述的微调CLIP - GPT2模型

🚀 快速开始

📚 详细文档

模型详情