Vitgpt2 Vizwiz

V

Vitgpt2 Vizwiz

由gagan3012開發

基於ViT-GPT2架構的視覺-語言模型，用於圖像轉文本任務

圖像生成文本

#圖像描述生成 #多模態模型 #視覺問答

下載量 24

發布時間 : 3/2/2022

模型概述

該模型結合視覺Transformer(ViT)和GPT-2架構，能夠將圖像內容轉換為描述性文本，適用於視覺問答和圖像描述生成任務

模型特點

多模態理解

能夠同時處理視覺和語言信息，實現圖像到文本的轉換

端到端訓練

採用聯合訓練方式優化視覺和語言組件

高效微調

在VizWiz數據集上微調，優化了視覺問答性能

模型能力

圖像描述生成

視覺問答

多模態理解

使用案例

輔助技術

視覺輔助

為視障人士提供圖像內容描述

內容生成

自動圖像標註

為圖像庫生成自動描述標籤

🚀 ViTGPT2_vizwiz

該模型是基於未知數據集對進行微調後的版本。它在評估集上取得了如下結果：

損失值：0.0719

🚀 快速開始

此部分暫未提供具體開始使用的內容，可依據模型的常規使用方法，結合後續提供的訓練和評估信息進行操作。

📚 詳細文檔

模型描述

更多信息待補充。

預期用途與限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：2e - 05
訓練批次大小：8
評估批次大小：8
隨機種子：42
分佈式類型：多GPU
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
訓練輪數：3.0
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失
0.1207	0.07	1000	0.0906
0.0916	0.14	2000	0.0861
0.0879	0.2	3000	0.0840
0.0856	0.27	4000	0.0822
0.0834	0.34	5000	0.0806
0.0817	0.41	6000	0.0795
0.0812	0.48	7000	0.0785
0.0808	0.55	8000	0.0779
0.0796	0.61	9000	0.0771
0.0786	0.68	10000	0.0767
0.0774	0.75	11000	0.0762
0.0772	0.82	12000	0.0758
0.0756	0.89	13000	0.0754
0.0759	0.96	14000	0.0750
0.0756	1.02	15000	0.0748
0.0726	1.09	16000	0.0745
0.0727	1.16	17000	0.0745
0.0715	1.23	18000	0.0742
0.0726	1.3	19000	0.0741
0.072	1.37	20000	0.0738
0.0723	1.43	21000	0.0735
0.0715	1.5	22000	0.0734
0.0724	1.57	23000	0.0732
0.0723	1.64	24000	0.0730
0.0718	1.71	25000	0.0729
0.07	1.78	26000	0.0728
0.0702	1.84	27000	0.0726
0.0704	1.91	28000	0.0725
0.0703	1.98	29000	0.0725
0.0686	2.05	30000	0.0726
0.0687	2.12	31000	0.0726
0.0688	2.19	32000	0.0724
0.0677	2.25	33000	0.0724
0.0665	2.32	34000	0.0725
0.0684	2.39	35000	0.0723
0.0678	2.46	36000	0.0722
0.0686	2.53	37000	0.0722
0.067	2.59	38000	0.0721
0.0669	2.66	39000	0.0721
0.0673	2.73	40000	0.0721
0.0673	2.8	41000	0.0720
0.0662	2.87	42000	0.0720
0.0681	2.94	43000	0.0719

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2 + cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase