N

Nanollava

qnguyen3によって開発
nanoLLaVAは1Bパラメータの視覚言語モデルで、エッジデバイス向けに設計され、効率的な動作が特徴です。
ダウンロード数 2,851
リリース時間 : 4/4/2024

モデル概要

nanoLLaVAは小型ながら強力な視覚言語モデルで、Qwen1.5-0.5BとSigLIP視覚エンコーダーを基に構築され、マルチモーダルタスクに適しています。

モデル特徴

効率的なエッジコンピューティング
エッジデバイス上で効率的に動作するよう設計されており、パラメータ規模は小さいながらも強力な性能を発揮します。
マルチモーダル能力
視覚と言語の理解能力を組み合わせ、画像とテキストの共同タスクを処理できます。
改良版
nanoLLaVA-1.5バージョンがリリースされ、性能が大幅に向上しました。

モデル能力

視覚質問応答
画像説明生成
マルチモーダル理解
テキスト生成
画像分析

使用事例

スマートアシスタント
画像内容の説明
ユーザーが提供した画像に基づいて詳細な説明を生成
画像内の内容と文脈関係を正確に識別可能
教育
科学問題の解答
画像に関連する科学質問に回答
ScienceQAデータセットで58.97%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase