llava-phi-2-3bオープンソース多モーダルチャットボット - 画像とテキスト入力をサポートし、自然言語で応答を生成

ホーム

Llava Phi 2 3b

marianna13によって開発

LLaVa-Phi-2-3Bはオープンソースのマルチモーダルチャットボットモデルで、Phi-2アーキテクチャを基にファインチューニングされ、画像とテキスト入力を処理し自然言語応答を生成できます。

テキスト生成画像

Transformers

英語オープンソースライセンス:MIT #マルチモーダル対話 #軽量視覚言語モデル #命令追従最適化

ダウンロード数 153

リリース時間 : 1/28/2024

モデル概要

このモデルはPhi-2モデルをマルチモーダル命令追従データでファインチューニングしており、視覚-言語理解能力を持ち、画像説明や視覚的質問応答などのタスクに使用可能です。

モデル特徴

マルチモーダル理解

画像とテキスト入力を同時に処理し、視覚内容を理解して関連する応答を生成可能

効率的なパラメータ利用

僅か3Bパラメータ規模でより大規模なモデルに近い性能を実現

命令追従

ユーザー命令に従うよう特別に訓練されており、対話型インタラクションに適している

モデル能力

画像理解

視覚的質問応答

画像説明生成

マルチモーダル対話

命令追従

使用事例

教育

視覚補助学習

複雑な図表や画像内容の理解を学生支援

アクセシビリティ技術

画像説明サービス

視覚障害ユーザー向けに画像内容を音声説明

コンテンツモデレーション

マルチモーダルコンテンツ分析

画像とテキスト内容を同時分析しより包括的なコンテンツモデレーションを実現

モデル	パラメータ	SQA	GQA	TextVQA	POPE
LLaVA-1.5	7.3B	68.0	62.0	58.3	85.3
MC-LLaVA-3B	3B	-	49.6	38.59	-
LLaVA-Phi	3B	68.4	-	48.6	85.0
moondream1	1.6B	-	56.3	39.8	-
llava-phi-2-3b	3B	69.0	51.2	47.0	86.0

モデル	BLEU_1	BLEU_2	BLEU_3	BLEU_4	METEOR	ROUGE_L	CIDEr	SPICE
llava-1.5-7b	75.8	59.8	45	33.3	29.4	57.7	108.8	23.5
llava-phi-2-3b	67.7	50.5	35.7	24.2	27.0	52.4	85.0	20.7

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Llava Phi 2 3b

モデル概要

モデル特徴

モデル能力

使用事例

🚀 LLaVa-Phi-2-3Bのモデルカード

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

モデルの詳細

モデルの説明

モデルのソース

評価

ベンチマーク

画像キャプショニング (MS COCO)

📄 ライセンス