L

Llama3.2 11B Vision Instruct INT4 GPTQ

fahadh4ilyasによって開発
Llama 3.2-VisionはMetaが開発したマルチモーダル大規模言語モデルで、画像推論とテキスト生成能力を備え、視覚認識、画像記述、質問応答などのタスクをサポートします。
ダウンロード数 1,770
リリース時間 : 4/8/2025

モデル概要

Llama 3.2-VisionはLlama 3.1純テキストモデルをベースに構築されたマルチモーダル大規模言語モデルで、ビジュアルアダプターを通じて画像入力をサポートし、視覚質問応答、画像記述などの様々なタスクに適しています。

モデル特徴

マルチモーダル能力
画像とテキストの入力を同時に処理し、クロスモーダル理解と生成を実現します。
大規模事前学習
60億(画像、テキスト)ペアのデータを基に学習されており、強力な視覚言語理解能力を備えています。
長コンテキストサポート
128kのコンテキスト長をサポートし、複雑なタスクの処理に適しています。
効率的な推論
グループ化クエリアテンション(GQA)技術を採用し、推論効率を向上させています。

モデル能力

画像理解
テキスト生成
視覚質問応答
画像記述
ドキュメント理解
視覚位置特定
画像 - テキスト検索

使用事例

視覚質問応答
画像内容質問応答
画像内容に関する自然言語の質問に回答します。
画像内容を正確に理解し、関連する回答を提供します。
ドキュメント処理
ドキュメント視覚質問応答
ドキュメント(契約書、地図など)のテキストとレイアウトを理解し、質問に回答します。
ドキュメント画像から直接情報を抽出し、質問に回答します。
コンテンツ生成
画像記述生成
画像に対して詳細な自然言語の記述を生成します。
正確で流暢な画像記述を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase