L

Llava Llama 3 8b V1 1 Gguf

xtunerによって開発
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336モデルをファインチューニングしたマルチモーダルモデルで、画像理解とテキスト生成をサポート
ダウンロード数 9,484
リリース時間 : 4/26/2024

モデル概要

これは視覚言語モデルで、画像内容を理解し関連するテキスト記述を生成でき、画像からテキストへのタスクに適しています

モデル特徴

強力な視覚理解能力
CLIP-ViT-Large視覚エンコーダを組み合わせ、画像内容を正確に理解可能
Llama-3言語モデル
Meta最新のLlama-3-8B-Instructモデルをベースに、高品質なテキスト生成を提供
マルチ解像度サポート
336ピクセル解像度の画像入力をサポート
効率的なファインチューニング
XTunerツールキットを使用した効率的なファインチューニングでモデル性能を最適化

モデル能力

画像内容理解
画像記述生成
マルチモーダル質問応答
視覚的推論

使用事例

画像理解
画像記述生成
入力画像に対して詳細な文章記述を生成
自然で流暢な画像記述テキストを生成
視覚的質問応答
画像内容に関する様々な質問に回答
画像関連の質問に正確に回答
教育
科学図解
科学図表や模式図を説明
複雑な科学概念の理解を学生に支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase