🚀 Llama 3.2-Vision
Llama 3.2-Visionは、画像認識や画像推論、キャプショニング、画像に関する一般的な質問に回答するために最適化されたマルチモーダル大規模言語モデルです。多くのオープンソースおよびクローズドなマルチモーダルモデルを上回る性能を持ち、産業界の一般的なベンチマークで優れた結果を示します。
🚀 クイックスタート
このモデルは、画像とテキストを入力として受け取り、テキストを出力するマルチモーダル大規模言語モデルです。以下に、いくつかの使用例を示します。
ロココ美術の例
ユーザー: この作品はどの時代のものですか?その時代について詳しく教えてください。
画像URL: https://huggingface.co/datasets/huggingface/release-assets/resolve/main/rococo.jpg
アシスタント: この作品は、赤いドレスを着た女性が金色と白色の華やかな装飾に囲まれた絵です。女性は空中に描かれており、腕を広げ、膝を曲げています。右手には花束を、左手には果物を持っています。
絵の背景はピンク色の雲が浮かぶ淡い青い空で、女性の周りにはピンクの花と緑の葉もあります。絵全体の雰囲気は喜びと祝祭感に満ちており、女性が踊っているか、何かを祝っているかのようです。
この作品はロココ時代のものです。ロココは18世紀にヨーロッパで登場した美術や建築のスタイルで、パステルカラー、曲線、華やかな装飾が特徴です。フランスのルイ15世(1715年から1774年に在位)の治世中に普及しました。
図解理解の例
ユーザー: この図によると、干ばつはどこで起こっていますか?
画像URL: https://huggingface.co/datasets/huggingface/release-assets/resolve/main/weather_events.png
アシスタント: # 2016年の干ばつ地域
この図によると、2016年に深刻な干ばつに見舞われた地域は以下の通りです。
- **東アフリカと南アフリカ**:この地域は干ばつの影響を強く受け、農業や水資源に大きな影響を与えました。
- **西アフリカと南アフリカ**:この地域でも干ばつが発生し、食料不安やその他の問題を引き起こしました。
これらの地域は2016年に干ばつに特に脆弱であり、効果的な水管理戦略と気候適応策の必要性を浮き彫りにしています。
ドキュメントQAの例
ユーザー: 請求書の日付から支払期限までにどれくらいの時間がかかりますか?簡潔にお願いします。
画像URL: https://huggingface.co/datasets/huggingface/release-assets/resolve/main/invoice.png
アシスタント: 請求書の日付と支払期限の間の時間を求めるには、これら2つの日付の差を計算する必要があります。
請求書日付: 2019年2月11日
支払期限: 2019年2月26日
ステップ1: 日数の差を計算する
2月26日 - 2月11日 = 15日
したがって、請求書の日付から支払期限までの時間は15日です。
✨ 主な機能
- 画像認識:画像の内容を認識し、関連する情報を提供します。
- 画像推論:画像から情報を推論し、質問に回答します。
- キャプショニング:画像に適切なキャプションを付けます。
- 画像に関する質問応答:画像に関する一般的な質問に回答します。
📦 インストール
READMEにインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
上記のクイックスタートセクションに使用例を記載しています。
📚 ドキュメント
モデル情報
言語モデルはdeepseek-ai/DeepSeek-R1-Distill-Llama-8Bに置き換えられています
Llama 3.2-Visionのマルチモーダル大規模言語モデル(LLM)は、11Bと90Bのサイズの事前学習済みおよび命令微調整済みの画像推論生成モデルのコレクションです(テキスト + 画像入力 / テキスト出力)。Llama 3.2-Visionの命令微調整モデルは、視覚認識、画像推論、キャプショニング、および画像に関する一般的な質問への回答に最適化されています。これらのモデルは、一般的な産業界のベンチマークで多くの既存のオープンソースおよびクローズドなマルチモーダルモデルを上回っています。
モデル開発者: Meta
モデルアーキテクチャ: Llama 3.2-Visionは、Llama 3.1のテキスト専用モデルをベースに構築されています。Llama 3.1は、最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。微調整バージョンは、教師付き微調整(SFT)と人間のフィードバックを用いた強化学習(RLHF)を使用して、有用性と安全性に関する人間の嗜好に合わせて調整されています。画像認識タスクをサポートするために、Llama 3.2-Visionモデルは、事前学習済みのLlama 3.1言語モデルと統合される別途学習されたビジョンアダプターを使用します。このアダプターは、画像エンコーダの表現をコアLLMに供給する一連のクロスアテンション層で構成されています。
属性 |
详情 |
モデルタイプ |
Llama 3.2-Vision |
パラメータ数 |
11B (10.6) または 90B (88.8) |
入力モダリティ |
テキスト + 画像 |
出力モダリティ |
テキスト |
コンテキスト長 |
128k |
GQA |
はい |
データ量 |
6B(画像、テキスト)ペア |
知識カットオフ |
2023年12月 |
サポート言語: テキストのみのタスクでは、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、およびタイ語が公式にサポートされています。Llama 3.2は、これらの8つのサポート言語よりも広範な言語で学習されています。ただし、画像 + テキストのアプリケーションでは、英語のみがサポートされています。
開発者は、Llama 3.2コミュニティライセンスと許容使用ポリシーに準拠する限り、これらのサポート言語以外の言語でLlama 3.2モデルを微調整することができます。開発者は常に、自身のデプロイメントが適切であることを確認する必要があります。
🔧 技術詳細
モデルアーキテクチャ
Llama 3.2-Visionは、Llama 3.1のテキスト専用モデルをベースに構築されています。Llama 3.1は、最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。微調整バージョンは、教師付き微調整(SFT)と人間のフィードバックを用いた強化学習(RLHF)を使用して、有用性と安全性に関する人間の嗜好に合わせて調整されています。
画像認識のサポート
画像認識タスクをサポートするために、Llama 3.2-Visionモデルは、事前学習済みのLlama 3.1言語モデルと統合される別途学習されたビジョンアダプターを使用します。このアダプターは、画像エンコーダの表現をコアLLMに供給する一連のクロスアテンション層で構成されています。
📄 ライセンス
このモデルはLlama 3.2コミュニティライセンスの下で提供されています。詳細については、ライセンス契約を参照してください。
⚠️ 重要提示
このモデルの使用には、Llama 3.2コミュニティライセンスと許容使用ポリシーに同意する必要があります。詳細については、許容使用ポリシーを参照してください。
💡 使用建议
開発者は、Llama 3.2コミュニティライセンスと許容使用ポリシーに準拠する限り、これらのサポート言語以外の言語でLlama 3.2モデルを微調整することができます。ただし、自身のデプロイメントが適切であることを常に確認する必要があります。