L

Llama 3.2 11B Vision

meta-llamaによって開発
Llama 3.2-VisionはMetaが開発したマルチモーダル大規模言語モデルシリーズで、11Bと90Bの2つのサイズがあり、画像+テキスト入力とテキスト出力をサポートし、視覚認識、画像推論、画像説明、画像質問応答タスクに最適化されています。
ダウンロード数 31.12k
リリース時間 : 9/18/2024

モデル概要

このシリーズのモデルはテキスト専用モデルLlama 3.1をベースに構築され、教師あり微調整と人間のフィードバックによる強化学習を通じて人間の好みに合わせて調整されています。視覚能力は独立して訓練された視覚アダプターによって実現されています。

モデル特徴

マルチモーダル能力
画像とテキストの共同入力をサポートし、画像に関連するテキスト内容を理解し生成できます。
大規模事前学習
60億の画像テキストペアで事前学習されており、強力な視覚と言語理解能力を備えています。
命令チューニング最適化
300万の合成サンプルで命令チューニングを行い、視覚認識、画像推論などのタスクのパフォーマンスを最適化しました。
長文コンテキストサポート
128kのコンテキスト長をサポートし、複雑なマルチモーダルタスクの処理に適しています。
安全対策
3層の保護戦略と専門的なリスク評価を含み、モデルの安全な使用を確保します。

モデル能力

視覚質問応答
画像推論
画像説明生成
画像テキスト検索
視覚位置特定
多言語テキスト処理

使用事例

教育
大学レベルの視覚推論
大学レベルの視覚推論問題の解答に使用されます。
MMMU-valテストセットで50.7%(11Bモデル)と60.3%(90Bモデル)の精度を達成。
ビジネス
チャート理解
ビジネスチャートのデータを理解し解釈するために使用されます。
ChartQA-testテストセットで83.4%(11Bモデル)と85.5%(90Bモデル)の精度を達成。
汎用
汎用視覚質問応答
画像に関連する様々な質問に答えるために使用されます。
VQAv2-testテストセットで75.2%(11Bモデル)と78.1%(90Bモデル)の精度を達成。
多言語
多言語テキスト処理
複数言語のテキストタスクを処理するために使用されます。
MGSM-CoTテストセットで68.9%(11Bモデル)と86.9%(90Bモデル)の精度を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase