L

Llama 3.2 90B Vision

Developed by meta-llama
Llama 3.2-VisionはMetaが開発したマルチモーダル大規模言語モデルシリーズで、画像+テキスト入力とテキスト出力をサポートし、視覚認識、画像推論、画像説明、画像質問応答タスクに最適化されています。
Downloads 3,235
Release Time : 9/19/2024

Model Overview

テキスト専用モデルLlama 3.1を基に構築されたマルチモーダルモデルで、独立して訓練された視覚アダプターにより画像理解能力を実現し、視覚的質問応答や文書解析などのタスクで優れた性能を発揮します。

Model Features

超長文コンテキストサポート
128kトークンのコンテキストウィンドウ長で、高解像度画像や複雑な画像テキストインタラクションの処理に適しています
効率的な視覚アダプター
クロスアテンション層で実現された独立視覚エンコーダーで、テキスト能力に影響を与えずに画像理解を強化
多段階最適化
事前学習、教師あり微調整(SFT)、人間フィードバック強化学習(RLHF)の3段階で最適化
グリーンコンピューティング
再生可能エネルギーを使用したトレーニングプロセスで、ネットゼロカーボンエミッションを実現

Model Capabilities

画像内容理解
視覚的質問応答推論
多言語テキスト生成
文書画像解析
チャートデータ解釈
シーン説明生成

Use Cases

視覚理解
医療画像分析
X線画像などの医学画像を解釈し診断提案を生成
専門家テストセットで専門家に近い認識精度を達成
小売商品認識
商品画像を認識しマーケティング説明を生成
SEO最適化された製品コピーを自動生成可能
教育支援
科学チャート解釈
教科書の複雑なチャートを解析し平易な説明を生成
ChartQAテストセットで85.5%の精度を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase