N

Nanollava 1.5

qnguyen3によって開発
nanoLLaVA-1.5は10億パラメータ以下の視覚言語モデルで、エッジデバイス向けに設計されており、小型ながら強力な機能を備えています。
ダウンロード数 442
リリース時間 : 6/29/2024

モデル概要

nanoLLaVA-1.5はv1.0バージョンのアップグレード版で、画像テキストからテキストへのタスクに適した効率的な視覚言語モデルです。

モデル特徴

小型ながら強力
エッジデバイス向けに設計され、10億パラメータ以下ながら強力な機能を備えています。
マルチモーダルサポート
視覚と言語のマルチモーダルタスク処理をサポートします。
効率的な推論
最適化されたモデルにより、エッジデバイス上でも効率的に動作します。

モデル能力

画像キャプション生成
視覚質問応答
マルチモーダル推論

使用事例

視覚質問応答
画像内容の説明
画像に基づいて詳細な文章説明を生成します。
教育
科学問題の解答
画像に基づく科学問題の解答。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase