vilt-gqa-ft開源視覺語言模型 - 助力完成GQA視覺推理任務

Vilt Gqa Ft

由phucd開發

基於ViLT架構的視覺語言模型，專為GQA視覺推理任務微調

下載量 62

發布時間 : 4/18/2025

模型概述

該模型是基於ViLT(Vision-and-Language Transformer)架構的視覺語言模型，經過GQA(真實世界視覺推理數據集)的微調，擅長處理視覺推理任務。

視覺語言聯合建模

採用ViLT架構，能同時處理視覺和語言輸入，實現跨模態理解

GQA數據集微調

專門針對GQA視覺推理數據集進行優化，提升真實世界場景的推理能力

高效訓練

使用梯度累積等技術優化訓練效率，批次大小達到32

視覺問答

圖像理解

跨模態推理

場景理解

智能助手

圖像內容問答

回答關於圖像內容的複雜問題

能理解圖像場景並回答推理性問題

教育

視覺學習輔助

幫助學生理解複雜視覺場景

屬性	詳情
學習率	5e - 05
訓練批次大小	16
評估批次大小	8
隨機種子	42
梯度累積步數	2
總訓練批次大小	32
優化器	使用 OptimizerNames.ADAMW_TORCH，β值為(0.9, 0.999)，ε值為 1e - 08，無額外優化器參數
學習率調度器類型	線性
訓練輪數	20