F

Finetune VQA 1B

由TienAnh開發
基於InternVL3-1B和Vintern-1B-v3_5微調的視覺問答模型,支持越南語,適用於圖像內容理解和問答任務。
下載量 20
發布時間 : 5/10/2025

模型概述

該模型是一個視覺問答(VQA)模型,能夠理解圖像內容並回答相關問題。基於InternVL3-1B和Vintern-1B-v3_5架構微調,特別優化了越南語支持。

模型特點

多切片圖像處理
支持動態圖像預處理,自動將圖像分割為多個切片以保持寬高比,提高處理效率
越南語優化
專門針對越南語進行了優化和微調,在越南語視覺問答任務上表現良好
高效推理
支持bfloat16精度和flash attention(可選),在保持精度的同時提高推理速度

模型能力

圖像內容理解
視覺問答
圖像關鍵信息提取
多語言支持(主要越南語)

使用案例

教育
越南語學習輔助
幫助學生通過圖像理解越南語詞彙和表達
提高語言學習效率和趣味性
內容審核
圖像內容分析
自動分析圖像內容並回答相關問題
提高審核效率和準確性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase