L

Llama 3.1 8B Vision 378

qresearchによって開発
このプロジェクトでは、Llama 3に視覚能力を追加するための投影モジュールを訓練し、SigLIP技術を使用してLlama-3.1-8B-Instructモデルに適用しました。
ダウンロード数 203
リリース時間 : 7/23/2024

モデル概要

これは視覚と言語能力を組み合わせたマルチモーダルモデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。

モデル特徴

視覚能力強化
投影モジュールの訓練によりLlama 3モデルに視覚処理能力を追加
SigLIP技術の応用
SigLIP技術を使用して画像とテキストの共同処理を実現
4ビット量子化サポート
4ビット量子化展開をサポートし、ハードウェア要件を低減

モデル能力

画像理解
画像説明生成
視覚質問応答
マルチモーダル推論

使用事例

画像理解
画像説明生成
画像を入力すると、モデルは画像内容のテキスト説明を生成できます
簡潔で正確な画像説明を生成
視覚質問応答
画像内容に基づいて関連する質問に回答
画像内容に関連する正確な回答を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase