Llava Phi2
Llava-Phi2はPhi2をベースにしたマルチモーダル実装で、視覚と言語処理能力を組み合わせ、画像テキストからテキストへのタスクに適しています。
Downloads 153
Release Time : 1/24/2024
Model Overview
このモデルはPhi2言語モデルとCLIP視覚モジュールを組み合わせており、視覚QAや画像キャプション生成などの画像とテキストの共同タスクを処理できます。
Model Features
マルチモーダル能力
視覚と言語処理能力を組み合わせ、画像に関連するテキストを理解し生成できます。
効率的な小型モデル
Phi2ベースでパラメータ数が少ないながらも高性能で、リソースが限られた環境に適しています。
事前学習と微調整の組み合わせ
大規模な事前学習データセットと精密な微調整データセットを使用し、モデル性能を向上させます。
Model Capabilities
視覚QA
画像キャプション生成
マルチモーダル推論
Use Cases
視覚QA
画像内容QA
画像内容に関する自然言語質問に回答します。
画像中のオブジェクト、シーン、アクションに関する質問に正確に回答できます。
画像キャプション生成
自動画像キャプション
画像に対して自然言語の説明を生成します。
流暢かつ正確な画像説明を生成します。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98