T

Tinyllava OpenELM 450M SigLIP 0.89B

Developed by jiajunlong
TinyLLaVAは小规模の多モーダルモデルシリーズで、このモデルはOpenELM - 450MとSigLIP - 0.89Bで構成され、高効率なビジュアル - 言語タスクの処理に特化しています。
Downloads 102
Release Time : 4/29/2024

Model Overview

TinyLLaVAは軽量の多モーダルモデルで、言語モデルとビジュアルモデルを組み合わせ、画像とテキストの連合タスクを処理できます。

Model Features

軽量高効率
モデルのパラメータ規模が小さく、リソースが制限された環境に適しており、同時に一部の大規模モデルよりも性能が優れています。
多モーダルサポート
画像とテキストの入力を同時に処理し、ビジュアル質問応答などのタスクを完了できます。
モジュール化設計
複数の言語モデルとビジュアルモデルの組み合わせをサポートし、高い柔軟性を持っています。

Model Capabilities

ビジュアル質問応答
画像説明生成
多モーダル理解
テキスト生成

Use Cases

教育
ビジュアル質問応答
画像内容に関する質問に答え、教育シーンのインタラクティブな学習に適しています。
VQAv2データセットで71.74の正解率を達成しました。
コンテンツ生成
画像説明生成
画像に詳細なテキスト説明を生成し、障害者支援サービスやコンテンツラベリングに適しています。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase