Llava - Phi2オープンソースマルチモーダルモデル - 画像テキストからテキストへのタスクをサポート、視覚言語処理に優れる

Llava Phi2

Developed by RaviNaik

Llava-Phi2はPhi2をベースにしたマルチモーダル実装で、視覚と言語処理能力を組み合わせ、画像テキストからテキストへのタスクに適しています。

Downloads 153

Release Time : 1/24/2024

Model Overview

このモデルはPhi2言語モデルとCLIP視覚モジュールを組み合わせており、視覚QAや画像キャプション生成などの画像とテキストの共同タスクを処理できます。

マルチモーダル能力

視覚と言語処理能力を組み合わせ、画像に関連するテキストを理解し生成できます。

効率的な小型モデル

Phi2ベースでパラメータ数が少ないながらも高性能で、リソースが限られた環境に適しています。

事前学習と微調整の組み合わせ

大規模な事前学習データセットと精密な微調整データセットを使用し、モデル性能を向上させます。

視覚QA

画像キャプション生成

マルチモーダル推論

視覚QA

画像内容QA

画像内容に関する自然言語質問に回答します。

画像中のオブジェクト、シーン、アクションに関する質問に正確に回答できます。

画像キャプション生成

自動画像キャプション

画像に対して自然言語の説明を生成します。

流暢かつ正確な画像説明を生成します。

プロパティ	詳細
モデルタイプ	マルチモーダルモデル
言語モデルのバックボーン	Phi2
ビジョンタワー	clip-vit-large-patch14-336
事前学習データセット	LAION-CC-SBU dataset with BLIP captions(200k samples)
ファインチューニングデータセット	Instruct 150k dataset based on COCO
ファインチューニング済みモデル	RaviNaik/Llava-Phi2