H

Hyperclovax SEED Vision Instruct 3B

naver-hyperclovaxによって開発
HyperCLOVAX-SEED-Vision-Instruct-3BはNAVERが開発した軽量マルチモーダルモデルで、画像・テキスト理解とテキスト生成能力を備え、特に韓国語処理能力が最適化されています。
ダウンロード数 160.75k
リリース時間 : 4/22/2025

モデル概要

このモデルはLLaVAアーキテクチャを基に、視覚エンコーダーと言語モジュールを組み合わせ、画像質問応答、グラフ解析、動画内容理解などのタスクをサポートする韓国初のオープンソース視覚言語モデルです。

モデル特徴

軽量設計
計算効率を最適化し、同規模モデルと比べて少ない視覚トークンで競争力のある性能を実現
韓国語最適化
韓国語に特化したパレート最適モデルで、韓国語ベンチマークテストで同規模のオープンソースモデルを上回る性能
効率的な動画処理
動的フレームサンプリングにより低トークン消費で動画理解を実現、単一动画で最大1856トークン/108フレームをサポート
マルチモーダル能力
テキスト、画像、動画入力を同時にサポートし、画像・テキスト理解とテキスト生成能力を備える

モデル能力

視覚質問応答
グラフ解析
動画内容理解
韓国語テキスト生成
マルチモーダル推論

使用事例

内容理解
画像質問応答
入力画像に基づいて関連質問に回答
TextVQA-Valベンチマークで79.2点を達成
動画内容分析
動画内容を理解し関連質問に回答
VideoMMEベンチマークで48.2点を達成
商業応用
製品識別
画像中の製品を識別し関連情報を提供
OCRとエンティティ認識による入力補助をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase