H

Hyperclovax SEED Vision Instruct 3B

由naver-hyperclovax開發
HyperCLOVAX-SEED-Vision-Instruct-3B是由NAVER開發的輕量化多模態模型,具備圖文理解和文本生成能力,特別優化了韓語處理能力。
下載量 160.75k
發布時間 : 4/22/2025

模型概述

該模型基於LLaVA架構,結合視覺編碼器和語言模塊,支持圖像問答、圖表解析和視頻內容理解等任務,是韓國首個開源的視覺語言模型。

模型特點

輕量化設計
優化計算效率,相比同規模模型能以更少的視覺令牌實現競爭力表現
韓語優化
專為韓語優化的帕累托最優模型,在韓語基準測試中超越同規模開源模型
高效視頻處理
通過動態幀採樣實現低令牌消耗的視頻理解,單視頻最大支持1856令牌/108幀
多模態能力
同時支持文本、圖像和視頻輸入,具備圖文理解和文本生成能力

模型能力

視覺問答
圖表解析
視頻內容理解
韓語文本生成
多模態推理

使用案例

內容理解
圖像問答
根據輸入的圖像回答相關問題
在TextVQA-Val基準測試中達到79.2分
視頻內容分析
理解視頻內容並回答相關問題
在VideoMME基準測試中達到48.2分
商業應用
產品識別
識別圖像中的產品並提供相關信息
支持OCR和實體識別輔助輸入
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase