Llama 3.2-11b-visionオープンソースマルチモーダルモデル - 画像とテキスト入力を無料でサポート、認識推論記述を最適化

ホーム

Llama 3.2 11b Vision R1 Distill

bababababooeyによって開発

Llama 3.2-VisionはMetaが開発したマルチモーダル大規模言語モデルで、画像とテキスト入力をサポートし、視覚認識、画像推論、記述タスクに最適化されています。

画像生成テキスト

Transformers

複数言語対応#マルチモーダル画像推論 #128k長文コンテキスト #多言語視覚質問応答

ダウンロード数 29

リリース時間 : 2/7/2025

モデル概要

Llama 3.1純粋テキストモデルを基に構築されたマルチモーダルモデルで、画像アダプターを通じて視覚タスクをサポートし、様々な視覚ベンチマークで優れた性能を発揮します。

モデル特徴

マルチモーダル理解

画像とテキスト入力を同時に処理し、クロスモーダルな理解と推論を実現

長文コンテキストサポート

128kトークンのコンテキストウィンドウで、複雑な視覚シーンの処理に適しています

効率的な推論

グループ化クエリアテンション(GQA)技術を採用し、推論効率を向上

安全調整

RLHFとSFTにより人間の嗜好に合わせ、安全緩和策を内蔵

モデル能力

視覚質問応答

画像記述生成

文書理解

図表解析

多言語テキスト生成

視覚位置特定

画像-テキスト検索

使用事例

教育

教材内容理解

教科書の図表やイラストを解析し、学生の質問に回答

MMMU大学レベルの問題テストで60.3%の精度を達成

ビジネス分析

ビジネス図表解釈

財務報告書の図表やデータ可視化を自動分析

ChartQAテストセットで85.5%の精度を達成

文書処理

インテリジェント請求書処理

請求書画像から主要情報を抽出し、日付差を計算

DocVQAテストでANLSスコア90.1

🚀 Llama 3.2-Vision

Llama 3.2-Visionは、画像認識や画像推論、キャプショニング、画像に関する一般的な質問に回答するために最適化されたマルチモーダル大規模言語モデルです。多くのオープンソースおよびクローズドなマルチモーダルモデルを上回る性能を持ち、産業界の一般的なベンチマークで優れた結果を示します。

🚀 クイックスタート

このモデルは、画像とテキストを入力として受け取り、テキストを出力するマルチモーダル大規模言語モデルです。以下に、いくつかの使用例を示します。

ロココ美術の例

ユーザー: この作品はどの時代のものですか？その時代について詳しく教えてください。
画像URL: https://huggingface.co/datasets/huggingface/release-assets/resolve/main/rococo.jpg

アシスタント: この作品は、赤いドレスを着た女性が金色と白色の華やかな装飾に囲まれた絵です。女性は空中に描かれており、腕を広げ、膝を曲げています。右手には花束を、左手には果物を持っています。

絵の背景はピンク色の雲が浮かぶ淡い青い空で、女性の周りにはピンクの花と緑の葉もあります。絵全体の雰囲気は喜びと祝祭感に満ちており、女性が踊っているか、何かを祝っているかのようです。

この作品はロココ時代のものです。ロココは18世紀にヨーロッパで登場した美術や建築のスタイルで、パステルカラー、曲線、華やかな装飾が特徴です。フランスのルイ15世（1715年から1774年に在位）の治世中に普及しました。

図解理解の例

ユーザー: この図によると、干ばつはどこで起こっていますか？
画像URL: https://huggingface.co/datasets/huggingface/release-assets/resolve/main/weather_events.png

アシスタント: # 2016年の干ばつ地域

この図によると、2016年に深刻な干ばつに見舞われた地域は以下の通りです。

- **東アフリカと南アフリカ**：この地域は干ばつの影響を強く受け、農業や水資源に大きな影響を与えました。
- **西アフリカと南アフリカ**：この地域でも干ばつが発生し、食料不安やその他の問題を引き起こしました。

これらの地域は2016年に干ばつに特に脆弱であり、効果的な水管理戦略と気候適応策の必要性を浮き彫りにしています。

ドキュメントQAの例

ユーザー: 請求書の日付から支払期限までにどれくらいの時間がかかりますか？簡潔にお願いします。
画像URL: https://huggingface.co/datasets/huggingface/release-assets/resolve/main/invoice.png

アシスタント: 請求書の日付と支払期限の間の時間を求めるには、これら2つの日付の差を計算する必要があります。

請求書日付: 2019年2月11日
支払期限: 2019年2月26日

ステップ1: 日数の差を計算する
2月26日 - 2月11日 = 15日

したがって、請求書の日付から支払期限までの時間は15日です。

✨ 主な機能

画像認識：画像の内容を認識し、関連する情報を提供します。
画像推論：画像から情報を推論し、質問に回答します。
キャプショニング：画像に適切なキャプションを付けます。
画像に関する質問応答：画像に関する一般的な質問に回答します。

📦 インストール

READMEにインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

上記のクイックスタートセクションに使用例を記載しています。

📚 ドキュメント

モデル情報

言語モデルはdeepseek-ai/DeepSeek-R1-Distill-Llama-8Bに置き換えられています

Llama 3.2-Visionのマルチモーダル大規模言語モデル（LLM）は、11Bと90Bのサイズの事前学習済みおよび命令微調整済みの画像推論生成モデルのコレクションです（テキスト + 画像入力 / テキスト出力）。Llama 3.2-Visionの命令微調整モデルは、視覚認識、画像推論、キャプショニング、および画像に関する一般的な質問への回答に最適化されています。これらのモデルは、一般的な産業界のベンチマークで多くの既存のオープンソースおよびクローズドなマルチモーダルモデルを上回っています。

モデル開発者: Meta

モデルアーキテクチャ: Llama 3.2-Visionは、Llama 3.1のテキスト専用モデルをベースに構築されています。Llama 3.1は、最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。微調整バージョンは、教師付き微調整（SFT）と人間のフィードバックを用いた強化学習（RLHF）を使用して、有用性と安全性に関する人間の嗜好に合わせて調整されています。画像認識タスクをサポートするために、Llama 3.2-Visionモデルは、事前学習済みのLlama 3.1言語モデルと統合される別途学習されたビジョンアダプターを使用します。このアダプターは、画像エンコーダの表現をコアLLMに供給する一連のクロスアテンション層で構成されています。

属性	详情
モデルタイプ	Llama 3.2-Vision
パラメータ数	11B (10.6) または 90B (88.8)
入力モダリティ	テキスト + 画像
出力モダリティ	テキスト
コンテキスト長	128k
GQA	はい
データ量	6B（画像、テキスト）ペア
知識カットオフ	2023年12月

サポート言語: テキストのみのタスクでは、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、およびタイ語が公式にサポートされています。Llama 3.2は、これらの8つのサポート言語よりも広範な言語で学習されています。ただし、画像 + テキストのアプリケーションでは、英語のみがサポートされています。

開発者は、Llama 3.2コミュニティライセンスと許容使用ポリシーに準拠する限り、これらのサポート言語以外の言語でLlama 3.2モデルを微調整することができます。開発者は常に、自身のデプロイメントが適切であることを確認する必要があります。

🔧 技術詳細

モデルアーキテクチャ

Llama 3.2-Visionは、Llama 3.1のテキスト専用モデルをベースに構築されています。Llama 3.1は、最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。微調整バージョンは、教師付き微調整（SFT）と人間のフィードバックを用いた強化学習（RLHF）を使用して、有用性と安全性に関する人間の嗜好に合わせて調整されています。