L

Lava Phi

sagar007によって開発
マイクロソフトPhi-1.5アーキテクチャを基にしたビジュアルランゲージモデル、CLIPと統合して画像処理能力を実現
ダウンロード数 17
リリース時間 : 1/2/2025

モデル概要

これはマルチモーダルモデルで、画像とテキスト入力を同時に処理し、関連するテキスト出力を生成できます。

モデル特徴

マルチモーダル能力
テキストと画像処理能力を統合し、画像に関連するテキスト記述を理解・生成可能
効率的なトレーニング
QLoRA(量子化低ランク適応)トレーニング手法を採用、4ビット量子化で効率向上
混合精度トレーニング
bfloat16を使用した混合精度トレーニングでトレーニング効率を向上

モデル能力

画像理解
画像記述生成
ビジュアルQA
マルチモーダル対話

使用事例

画像理解
画像記述生成
入力画像に対して詳細なテキスト記述を生成
ビジュアルQA
画像に基づくQA
画像内容に関する自然言語質問に回答
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase