オープンソースのLlama 3.2-Visionマルチモーダル大規模モデル。画像認識、記述、質問応答を無料でデプロイしてサポート！

ホーム

Llama3.2 11B Vision Instruct INT4 GPTQ

fahadh4ilyasによって開発

Llama 3.2-VisionはMetaが開発したマルチモーダル大規模言語モデルで、画像推論とテキスト生成能力を備え、視覚認識、画像記述、質問応答などのタスクをサポートします。

画像生成テキスト

Transformers

複数言語対応#マルチモーダル視覚推論 #128k長コンテキスト #クロスモーダル質問応答

ダウンロード数 1,770

リリース時間 : 4/8/2025

モデル概要

Llama 3.2-VisionはLlama 3.1純テキストモデルをベースに構築されたマルチモーダル大規模言語モデルで、ビジュアルアダプターを通じて画像入力をサポートし、視覚質問応答、画像記述などの様々なタスクに適しています。

モデル特徴

マルチモーダル能力

画像とテキストの入力を同時に処理し、クロスモーダル理解と生成を実現します。

大規模事前学習

60億（画像、テキスト）ペアのデータを基に学習されており、強力な視覚言語理解能力を備えています。

長コンテキストサポート

128kのコンテキスト長をサポートし、複雑なタスクの処理に適しています。

効率的な推論

グループ化クエリアテンション（GQA）技術を採用し、推論効率を向上させています。

モデル能力

画像理解

テキスト生成

視覚質問応答

画像記述

ドキュメント理解

視覚位置特定

画像 - テキスト検索

使用事例

視覚質問応答

画像内容質問応答

画像内容に関する自然言語の質問に回答します。

画像内容を正確に理解し、関連する回答を提供します。

ドキュメント処理

ドキュメント視覚質問応答

ドキュメント（契約書、地図など）のテキストとレイアウトを理解し、質問に回答します。

ドキュメント画像から直接情報を抽出し、質問に回答します。

コンテンツ生成

画像記述生成

画像に対して詳細な自然言語の記述を生成します。

正確で流暢な画像記述を生成します。

🚀 Llama 3.2-Visionモデル

Llama 3.2-Visionは、画像推論とテキスト生成能力を備えた一連のマルチモーダル大規模言語モデルです。一般的な業界基準テストで優れた性能を発揮し、視覚認識、画像推論、画像記述、質問応答などのタスクに利用できます。

🚀 クイックスタート

モデル情報

Llama 3.2-Visionシリーズのマルチモーダル大規模言語モデル（LLMs）は、事前学習と命令微調整された画像推論生成モデルのグループで、11Bと90Bの2種類の規模があります（入力はテキスト + 画像、出力はテキスト）。Llama 3.2-Visionの命令微調整モデルは、視覚認識、画像推論、画像記述、および画像に関する一般的な質問への回答に最適化されています。一般的な業界基準テストでは、これらのモデルは多くの既存のオープンソースおよびクローズドソースのマルチモーダルモデルを上回る性能を発揮します。

属性	詳細
モデル開発者	Meta
モデルアーキテクチャ	Llama 3.2-VisionはLlama 3.1純粋テキストモデルをベースに構築されており、これは最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデルです。微調整バージョンでは、監督微調整（SFT）と人間フィードバックに基づく強化学習（RLHF）を使用して、有用性と安全性に関する人間の嗜好に合わせています。画像認識タスクをサポートするために、Llama 3.2-Visionモデルは個別に学習されたビジュアルアダプターを使用しており、これは事前学習されたLlama 3.1言語モデルと統合されています。アダプターは一連のクロスアテンション層で構成され、画像エンコーダの表現をコアの大規模言語モデルに入力します。
学習データ	（画像，テキスト）ペア
パラメータ	11B（10.6）と90B（88.8）
入力モード	テキスト + 画像
出力モード	テキスト
コンテキスト長	128k
GQA	はい
データ量	60億（画像，テキスト）ペア
知識截止日	2023年12月

サポート言語：純粋なテキストタスクの場合、公式には英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語がサポートされています。Llama 3.2の学習データには、これら8つのサポート言語よりも広範な言語が含まれています。ただし、画像 + テキストのアプリケーションでは、英語のみがサポートされています。

開発者は、Llama 3.2コミュニティライセンスと許容使用ポリシーに従って、Llama 3.2モデルを微調整して、これらのサポート言語以外の言語をサポートすることができます。開発者は、常にそのデプロイ（他の言語を含む）が安全かつ責任を持って行われることを確認する必要があります。

Llama 3.2モデルファミリー：トークンカウントは事前学習データのみを指します。すべてのモデルバージョンでは、推論の拡張性を向上させるためにグループ化クエリアテンション（GQA）が使用されています。

モデル公開日：2024年9月25日

状態：これはオフラインデータセットを使用して学習された静的モデルです。将来的には、モデルの能力と安全性を向上させた新しいバージョンが公開される可能性があります。

ライセンス：Llama 3.2の使用は、Llama 3.2コミュニティライセンス（カスタム商用ライセンス契約）に準拠しています。

フィードバック：モデルに関する質問やコメントは、モデルのREADMEの説明を参照してください。生成パラメータの詳細な技術情報や、Llama 3.2-Visionをアプリケーションで使用する方法については、こちらを参照してください。

想定用途

想定ユースケース：Llama 3.2-Visionは、商用および研究用途を想定しています。命令微調整モデルは、視覚認識、画像推論、画像記述、および画像関連のアシスタント的な対話に適しており、事前学習モデルは様々な画像推論タスクに使用できます。さらに、Llama 3.2-Visionは画像とテキストを入力として受け取ることができるため、以下のようなユースケースも考えられます。

ビジュアル質問応答（VQA）とビジュアル推論：機械が画像を見て、それに関する質問を理解することができるようになります。
文書ビジュアル質問応答（DocVQA）：コンピュータが文書（地図や契約書など）のテキストとレイアウトを理解し、画像から直接質問に答えることができるようになります。
画像記述：画像記述は、視覚と言語のギャップを埋め、詳細を抽出し、シーンを理解してから、一、二文で物語を語ることができます。
画像 - テキスト検索：画像 - テキスト検索は、画像とその説明の間のマッチング役のようなものです。検索エンジンに似ていますが、画像とテキストを理解することができます。
ビジュアル位置特定：ビジュアル位置特定は、私たちが見るものと言うものをつなぐ役割を果たします。言語が画像の特定の部分を参照する方法を理解し、AIモデルが自然言語の記述に基づいてオブジェクトや領域の位置を特定できるようにすることが含まれます。

Llama 3.2モデルシリーズは、そのモデルの出力を利用して他のモデルを改善することもサポートしており、合成データ生成や蒸留などが含まれます。Llama 3.2コミュニティライセンスでは、これらのユースケースが許可されています。

範囲外：適用される法律や規制（貿易コンプライアンス法律を含む）に違反する方法での使用。許容使用ポリシーおよびLlama 3.2コミュニティライセンスで禁止されている他の方法での使用。このモデルカードで明示的にサポートされていると記載されていない言語の使用。

使い方

このリポジトリには、transformersと一緒に使用するための2つのバージョンのLlama-3.2-11B-Vision-Instructが含まれています。

ライセンス

LLAMA 3.2コミュニティライセンス契約

Llama 3.2のバージョン公開日：2024年9月25日

「契約」とは、本契約で規定されたLlama素材の使用、複製、配布、および変更に関する条項と条件を指します。

「ドキュメント」とは、Metaがhttps://llama.meta.com/doc/overview で配布するLlama 3.2に関連する仕様、マニュアル、およびドキュメントを指します。

「被許諾者」または「あなた」とは、あなた、またはあなたの雇用主、またはあなたがその者または団体を代表して本契約に署名する場合の他の個人または団体を指し、あなたは適用される法律、規則、または規制によって合法的な同意を与える年齢に達しており、あなたがそれらを代表して本契約に署名する場合、あなたはあなたの雇用主またはその他の個人または団体を拘束する合法的な権限を持っています。

「Llama 3.2」とは、Metaがhttps://www.llama.com/llama-downloads で配布する基礎的な大規模言語モデル、ソフトウェア、およびアルゴリズムを指し、機械学習モデルコード、学習済みモデルの重み、推論有効化コード、学習有効化コード、微調整有効化コード、および上記の他の要素が含まれます。

「Llama素材」とは、本契約に基づいて提供されるMetaの独自のLlama 3.2およびドキュメント（およびその一部）の総称を指します。

「Meta」または「私たち」とは、あなたが欧州経済圏（EEA）またはスイスに所在する場合、またはあなたが団体であり、主たる営業拠点が欧州経済圏またはスイスにある場合はMeta Platforms Ireland Limitedを、それ以外の場合はMeta Platforms, Inc.を指します。

以下の「同意する」をクリックするか、Llama素材の一部または要素を使用または配布することにより、あなたは本契約の拘束力を受けることに同意するものとします。

許諾権と再配布
- 権利付与：あなたには、MetaがLlama素材に含める知的財産権またはその他の権利の下で、Llama素材を使用、複製、配布、コピー、派生作品の作成、および変更するための非排他的、世界規模、譲渡不可、無料の限定的な許諾が付与されます。
- 再配布と使用
  - あなたがLlama素材（またはその派生作品）、またはその中の内容を含む製品やサービス（他のAIモデルを含む）を配布または提供する場合、あなたは（A）そのようなLlama素材とともに本契約のコピーを提供する必要があります。（B）関連するウェブサイト、ユーザーインターフェース、ブログ記事、概要ページ、または製品ドキュメントに「Built with Llama」を目立つように表示する必要があります。あなたがLlama素材またはLlama素材の出力や結果を使用してAIモデルを作成、学習、微調整、またはその他の方法で改善し、そのモデルを配布または提供する場合、あなたはそのようなAIモデルの名前の先頭に「Llama」を含める必要があります。
  - あなたが被許諾者から統合された最終ユーザー製品の一部としてLlama素材またはその派生作品を受け取る場合、本契約の第2条はあなたには適用されません。
  - あなたは、配布するすべてのLlama素材のコピーにおいて、そのコピーの一部として配布される「通知」テキストファイルに以下の帰属声明を残す必要があります。「Llama 3.2はLlama 3.2コミュニティライセンスに基づいて許諾されており、著作権は © Meta Platforms, Inc. すべての権利を留保します。」
  - あなたのLlama素材の使用は、適用される法律や規制（貿易コンプライアンス法律や規制を含む）に準拠し、Llama素材の許容使用ポリシー（https://www.llama.com/llama3_2/use-policy で入手可能）に従う必要があります。このポリシーは、ここに引用することにより本契約に組み込まれます。
追加の商用条項：Llama 3.2のバージョン公開日において、被許諾者または被許諾者の関連会社が提供する製品またはサービスの月間アクティブユーザーが前の暦月で7億人を超える場合、あなたはMetaに許可を求める必要があり、Metaは独自の判断で許可を与えるかどうかを決定することができ、Metaが明示的にそのような権利を与えるまで、あなたは本契約に基づくいかなる権利も行使することができません。
保証の否認：適用される法律が要求する場合を除き、Llama素材およびその出力や結果は「現状のまま」提供され、いかなる形式の保証も提供されません。Metaは、所有権、非侵害、適銷性、または特定の用途への適合性を含むすべての明示的および暗示的な保証を否認します。あなたは、Llama素材の使用または再配布の適切性を独自に判断し、Llama素材およびその出力や結果の使用に関連するすべてのリスクを負う責任があります。
責任の制限：いかなる場合も、Metaまたはその関連会社は、本契約に起因する利益の損失や、間接的、特殊的、結果的、偶発的、懲罰的、または罰則的な損害について責任を負いません。責任の理論（契約、不法行為、過失、製品責任、またはその他）に関係なく、Metaまたはその関連会社がそのような損害の可能性を知っていた場合でも同様です。
知的財産権
- 本契約では商標許諾は付与されておらず、Llama素材に関連して、Llama素材の説明や再配布のための合理的かつ慣習的な使用に必要な場合、または本节5(a)で述べる場合を除き、Metaおよび被許諾者は、相手方またはその関連会社が所有または関連するいかなる名称や標章も使用することはできません。Metaは、ここにあなたに、第1.b.i節の最後の文を遵守するために必要な範囲で「Llama」（「標章」）を使用する許可を与えます。あなたは、Metaのブランドガイドライン（現在はhttps://about.meta.com/brand/resources/meta/company-brand/ でアクセス可能）に従うものとします。あなたが標章を使用することによって生じるすべての商標権は、Metaに帰属します。
- MetaがLlama素材およびその派生作品の所有権を持っていることを考慮すると、あなたが作成するLlama素材の派生作品や変更に関しては、あなたとMetaの間で、あなたはそのような派生作品や変更の所有者であり、そのままであることになります。
- あなたがMetaまたは他の団体に対して訴訟またはその他の手続き（訴訟における交差請求または反訴を含む）を起こし、Llama素材またはLlama 3.2の出力や結果、またはそれらの一部が、あなたが所有または許諾できる知的財産権またはその他の権利の侵害を構成すると主張する場合、本契約であなたに付与された許諾は、その訴訟または請求が提起された日から終了します。あなたは、Llama素材の使用または配布に起因する、またはそれに関連するすべての第三者の請求からMetaを補償し、保護する責任があります。
期間と終了：本契約の期間は、あなたが本契約に同意するか、Llama素材にアクセスする日から始まり、本契約の条項と条件に基づいて終了するまで有効です。あなたが本契約のいずれかの条項または条件に違反した場合、Metaは本契約を終了させることができます。本契約が終了した後、あなたはLlama素材を削除し、使用を停止する必要があります。第3、4、および7節は、本契約が終了した後も有効です。
適用法律と管轄権：本契約は、カリフォルニア州の法律に準拠して解釈され、法律選択の原則は考慮されません。また、国際連合国際商品売買契約条約は本契約には適用されません。カリフォルニア州の裁判所は、本契約に起因するすべての紛争について排他的な管轄権を有します。

Llama 3.2許容使用ポリシー

Metaは、そのツールや機能（Llama 3.2を含む）の安全かつ公正な使用を促進することに取り組んでいます。あなたがLlama 3.2にアクセスまたは使用する場合、あなたは本許容使用ポリシー（「ポリシー」）に同意するものとします。本ポリシーの最新バージョンは、https://www.llama.com/llama3_2/use-policyで確認できます。

禁止使用

私たちは、誰もが安全かつ責任を持ってLlama 3.2を使用することを期待しています。あなたは、以下の行為を行わないこと、または他人に行わせないことに同意するものとします。

法律または他人の権利の侵害：
- 違法または犯罪行為や内容を行い、促進し、生成し、助長し、鼓動し、計画し、扇動し、またはさらに推進する行為、例えば：
  - 暴力またはテロリズム
  - 児童の搾取または傷害、児童搾取内容の勧誘、作成、取得、または配布、または児童性虐待材料の報告漏れ
  - 人身売買、搾取、および性的暴力
  - 未成年者への情報または材料の違法配布、わいせつな材料を含む、またはそのような情報や材料に法律で要求される年齢制限を適用しない
  - 性的勧誘
  - その他の犯罪行為
- 個人またはグループに対する嫌がらせ、虐待、脅迫、またはいじめを行い、促進し、扇動し、または助長する行為
- 雇用、雇用福利、信用、住宅、その他の経済的福利、またはその他の基本的な商品やサービスの提供における差別やその他の違法または有害な行為を行い、促進し、扇動し、または助長する行為
- 金融、法律、医療/健康、または関連する専門分野を含む、許可を得ていないまたは免許を持たない専門的な実践を行う行為
- 個人の私的または敏感な情報（個人識別情報、健康情報、または統計情報を含む）を収集、処理、開示、生成、または推測する行為。ただし、適用される法律に基づいてその権利を得ている場合を除きます。
- 第三者の権利を侵害、盗用、またはその他の方法で侵害する行為や内容を生成する行為、Llama素材を使用した製品やサービスの出力や結果を含む
- 悪意のあるコード、マルウェア、コンピュータウイルスを作成、生成、または助長する行為、またはウェブサイトやコンピュータシステムの正常な動作、完全性、操作、または外観を無効化、過負荷にし、干渉し、または損害する可能性のあるその他の行為
- 意図的に使用制限やその他の安全対策を回避または削除する行為、またはMetaが無効にした機能を有効にする行為
個人に死亡または身体的な傷害のリスクをもたらす活動の計画または実施を行い、促進し、扇動し、助長し、または支援する行為：
- 軍事、戦争、原子力産業または応用、スパイ活動、米国国務省が管理する「国際武器貿易規則」（ITAR）、1989年の「米国生物兵器対テロ法」、または1997年の「化学兵器条約実施法」に拘束される材料または活動に関連するLlama 3.2の使用
- 銃器や違法武器（武器開発を含む）
- 違法薬物や規制/管理物質
- 重要インフラ、輸送技術、または重機械の操作
- 自傷行為または他人への傷害、自殺、自傷行為、および摂食障害
- 暴力、虐待、または個人に身体的な傷害を与えることを煽動または促進する内容
故意に他人を欺瞞または誤解させる行為：
- 詐欺を生成、促進、または推進する行為、または虚偽情報を作成または促進する行為
- 中傷的な内容を生成、促進、または推進する行為、中傷的な声明、画像、またはその他の内容を作成する行為
- スパムを生成、促進、または配布する行為
- 同意、許可、または合法的な権利を得ていない状態で他人になりすます行為
- Llama 3.2の使用または出力が人間によって生成されたものであると表示する行為
- 虚偽のオンラインインタラクションを生成または助長する行為、虚偽のコメントやその他の虚偽のオンラインインタラクション方法を含む
最終ユーザーに対してAIシステムの既知の危険を適切に開示しない行為
違法内容を生成することを目的とした、または違法または有害な行為を行う第三者のツール、モデル、またはソフトウェアとのやり取り：および/またはそのようなツール、モデル、またはソフトウェアの出力がMetaまたはLlama 3.2に関連するものであると表示する行為