L

Llava Phi2

Developed by RaviNaik
Llava-Phi2はPhi2をベースにしたマルチモーダル実装で、視覚と言語処理能力を組み合わせ、画像テキストからテキストへのタスクに適しています。
Downloads 153
Release Time : 1/24/2024

Model Overview

このモデルはPhi2言語モデルとCLIP視覚モジュールを組み合わせており、視覚QAや画像キャプション生成などの画像とテキストの共同タスクを処理できます。

Model Features

マルチモーダル能力
視覚と言語処理能力を組み合わせ、画像に関連するテキストを理解し生成できます。
効率的な小型モデル
Phi2ベースでパラメータ数が少ないながらも高性能で、リソースが限られた環境に適しています。
事前学習と微調整の組み合わせ
大規模な事前学習データセットと精密な微調整データセットを使用し、モデル性能を向上させます。

Model Capabilities

視覚QA
画像キャプション生成
マルチモーダル推論

Use Cases

視覚QA
画像内容QA
画像内容に関する自然言語質問に回答します。
画像中のオブジェクト、シーン、アクションに関する質問に正確に回答できます。
画像キャプション生成
自動画像キャプション
画像に対して自然言語の説明を生成します。
流暢かつ正確な画像説明を生成します。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase