L

Llama 3.2 11b Vision R1 Distill

bababababooeyによって開発
Llama 3.2-VisionはMetaが開発したマルチモーダル大規模言語モデルで、画像とテキスト入力をサポートし、視覚認識、画像推論、記述タスクに最適化されています。
ダウンロード数 29
リリース時間 : 2/7/2025

モデル概要

Llama 3.1純粋テキストモデルを基に構築されたマルチモーダルモデルで、画像アダプターを通じて視覚タスクをサポートし、様々な視覚ベンチマークで優れた性能を発揮します。

モデル特徴

マルチモーダル理解
画像とテキスト入力を同時に処理し、クロスモーダルな理解と推論を実現
長文コンテキストサポート
128kトークンのコンテキストウィンドウで、複雑な視覚シーンの処理に適しています
効率的な推論
グループ化クエリアテンション(GQA)技術を採用し、推論効率を向上
安全調整
RLHFとSFTにより人間の嗜好に合わせ、安全緩和策を内蔵

モデル能力

視覚質問応答
画像記述生成
文書理解
図表解析
多言語テキスト生成
視覚位置特定
画像-テキスト検索

使用事例

教育
教材内容理解
教科書の図表やイラストを解析し、学生の質問に回答
MMMU大学レベルの問題テストで60.3%の精度を達成
ビジネス分析
ビジネス図表解釈
財務報告書の図表やデータ可視化を自動分析
ChartQAテストセットで85.5%の精度を達成
文書処理
インテリジェント請求書処理
請求書画像から主要情報を抽出し、日付差を計算
DocVQAテストでANLSスコア90.1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase