F

Finetune VQA 1B

TienAnhによって開発
InternVL3-1BとVintern-1B-v3_5を基にファインチューニングした視覚質問応答モデルで、ベトナム語をサポートし、画像内容理解と質問応答タスクに適しています。
ダウンロード数 20
リリース時間 : 5/10/2025

モデル概要

このモデルは視覚質問応答(VQA)モデルで、画像内容を理解し関連する質問に答えることができます。InternVL3-1BとVintern-1B-v3_5アーキテクチャを基にファインチューニングされ、特にベトナム語サポートが最適化されています。

モデル特徴

マルチスライス画像処理
動的画像前処理をサポートし、アスペクト比を維持するため画像を自動的に複数スライスに分割、処理効率を向上
ベトナム語最適化
ベトナム語に特化して最適化とファインチューニングが行われ、ベトナム語視覚質問応答タスクで良好な性能を発揮
効率的な推論
bfloat16精度とflash attention(オプション)をサポートし、精度を維持しながら推論速度を向上

モデル能力

画像内容理解
視覚質問応答
画像キー情報抽出
多言語サポート(主にベトナム語)

使用事例

教育
ベトナム語学習支援
画像を通じてベトナム語の語彙や表現を理解するのを学生に支援
言語学習の効率と楽しさを向上
コンテンツ審査
画像内容分析
画像内容を自動分析し関連質問に回答
審査効率と精度を向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase