L

Llama 3.2 Vision Instruct Bpmncoder

utkarshkinghによって開発
Unslothで最適化されたLlama 3.2 11B視覚命令ファインチューニングモデル、4ビット量子化技術を採用、トレーニング速度が2倍向上
ダウンロード数 40
リリース時間 : 3/23/2025

モデル概要

これはファインチューニングされたマルチモーダル言語モデルで、視覚とテキストの命令理解と生成をサポートし、マルチモーダルインタラクションシナリオに適しています

モデル特徴

効率的なトレーニング最適化
Unslothフレームワークを使用して最適化、トレーニング速度が2倍向上
4ビット量子化技術
BNB 4ビット量子化を採用、VRAM要件を低減
マルチモーダルサポート
視覚とテキストの命令理解と生成をサポート

モデル能力

マルチモーダル命令理解
テキスト生成
視覚コンテンツ分析
推論タスク処理

使用事例

インテリジェントアシスタント
マルチモーダルダイアログシステム
画像とテキストを含む複雑なユーザークエリを処理
視覚とテキスト情報を組み合わせた総合的な回答を提供
コンテンツ生成
画像とテキストのコンテンツ作成
視覚入力に基づいて関連するテキスト記述を生成
高品質な画像とテキストのマッチングコンテンツを自動生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase