T

Tiny Llava V1 Hf

bczhouによって開発
TinyLLaVAは小規模ながら高性能なマルチモーダルモデルフレームワークで、視覚言語タスクに特化しています。
ダウンロード数 2,372
リリース時間 : 1/11/2024

モデル概要

TinyLLaVAは効率的なマルチモーダルモデルで、画像からテキストを生成するタスクを処理でき、中国語と英語をサポートし、複数のベンチマークで優れた性能を発揮します。

モデル特徴

高性能小規模モデル
3.1BパラメータのTinyLLaVAは、7BパラメータのLLaVA-1.5やQwen-VLなどのモデルを性能で上回ります
マルチモーダル能力
画像理解とテキスト生成をサポートし、複雑な視覚言語タスクを処理できます
効率的な推論
小規模なパラメータにより、モデルの推論速度が速く、リソース消費が低くなります

モデル能力

画像理解
視覚的質問応答
画像キャプション生成
マルチモーダル推論

使用事例

視覚的質問応答
画像内容の質問応答
画像内容に関する様々な質問に答えます
VQA-v2データセットで79.9%の精度を達成
画像キャプション
自動画像キャプション
画像の詳細な説明テキストを生成します
LLaVA-Bench-Wildで75.8点を獲得
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase