L

Llama 3.2 11B Vision OCR

Swapnikによって開発
Unslothで最適化されたLlama 3.2-11B視覚命令モデル、4ビット量子化バージョン、トレーニング速度2倍向上
ダウンロード数 80
リリース時間 : 3/8/2025

モデル概要

これは視覚とテキスト命令を組み合わせたマルチモーダルモデルで、視覚-言語タスクに適しており、Llamaアーキテクチャを採用し4ビット量子化で最適化されています

モデル特徴

効率的なトレーニング最適化
UnslothとHuggingface TRLライブラリを使用したトレーニングで、速度が2倍向上
4ビット量子化
4ビット量子化技術を採用し、VRAM要件を低減
マルチモーダル能力
視覚とテキスト命令の同時処理をサポート

モデル能力

視覚命令理解
マルチモーダルテキスト生成
画像内容分析
クロスモーダル推論

使用事例

視覚質問応答
画像説明生成
入力画像に基づいて詳細な説明を生成
視覚命令実行
画像とテキストに基づく複合命令を理解し実行
教育支援
マルチモーダル教育
画像とテキストを組み合わせて複雑な概念を説明
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase