モデル概要
モデル特徴
モデル能力
使用事例
extra_gated_heading: このモデルにアクセスするには、Metaと連絡先情報を共有する必要があります extra_gated_prompt: >-
LLAMA 2 コミュニティライセンス契約
「契約」とは、本ライセンスに定めるLlama素材の使用、複製、配布、改変に関する条件を意味します。
「ドキュメンテーション」とは、Metaが配布するLlama 2に付随する仕様書、マニュアル、ドキュメントを指し、https://ai.meta.com/resources/models-and-libraries/llama-downloads/ で入手可能です。
「ライセンシー」または「あなた」とは、適用される法律、規則、規制に基づき法的同意を提供できる年齢に達しており、かつ雇用主または他の個人・団体を代表して本契約を締結する場合には、その雇用主または個人・団体を法的に拘束する権限を有する者を意味します。
「Llama 2」とは、基盤となる大規模言語モデル、ソフトウェア、アルゴリズム(機械学習モデルコード、学習済みモデルウェイト、推論用コード、学習用コード、ファインチューニング用コード、その他の要素を含む)を指し、ai.meta.com/resources/models-and-libraries/llama-downloads/ でMetaが配布しています。
「Llama素材」とは、本契約に基づき提供されるMetaの独自Llama 2およびドキュメンテーション(その一部を含む)を総称します。
「Meta」または「私たち」とは、EEAまたはスイスに所在する場合(または団体の場合は主たる事業所が所在する場合)はMeta Platforms Ireland Limitedを、EEAまたはスイス以外に所在する場合はMeta Platforms, Inc.を意味します。
下記の「同意する」をクリックするか、Llama素材の一部または全部を使用・配布することにより、あなたは本契約に拘束されることに同意したものとみなされます。
- ライセンス権利および再配布
a. 権利の付与。Metaの知的財産権またはその他の権利に基づき、Llama素材の使用、複製、配布、複写、派生作品の作成、改変を行うための非独占的、世界的、非譲渡的、ロイヤリティフリーの限定ライセンスが付与されます。
b. 再配布と使用
i. Llama素材またはその派生作品を第三者に配布または提供する場合、本契約の写しをその第三者に提供する必要があります。
ii. 統合エンドユーザー製品の一部としてライセンシーからLlama素材またはその派生作品を受領した場合、本契約の第2条は適用されません。
iii. 配布するLlama素材のすべてのコピーに、「Notice」テキストファイルの一部として以下の帰属表示を保持する必要があります:「Llama 2はLLAMA 2コミュニティライセンスの下でライセンスされており、Copyright (c) Meta Platforms, Inc. All Rights Reserved.」
iv. Llama素材の使用は、適用される法律および規制(貿易関連法規を含む)に準拠し、Llama素材の許容使用ポリシー(https://ai.meta.com/llama/use-policy)を遵守する必要があります。同ポリシーは本契約に組み込まれます。
v. Llama素材またはその出力・結果を使用して、他の大規模言語モデル(Llama 2またはその派生作品を除く)を改善することは禁止されています。
-
追加の商用条件。Llama 2のバージョンリリース日において、ライセンシーまたはその関連会社が提供する製品・サービスの月間アクティブユーザーが前暦月に7億人を超える場合、Metaからライセンスを取得する必要があります。Metaは単独の裁量でライセンスを付与する場合があり、Metaが明示的に権利を付与するまで、本契約に基づく権利を行使することはできません。
-
保証の免責。適用される法律で要求されない限り、Llama素材およびその出力・結果は「現状有姿」で提供され、明示または黙示を問わず、商品性、特定目的適合性、権利非侵害などの保証を含みません。Llama素材の使用または再配布の適切性を判断する責任はあなたにあり、Llama素材およびその出力・結果の使用に伴うリスクを負担します。
-
責任の制限。契約、不法行為、過失、製品責任その他いかなる法理論に基づいても、Metaおよびその関連会社は、本契約に起因する逸失利益、間接的、特別、結果的、付随的、懲罰的損害について責任を負いません。かかる損害の可能性について事前に知らされていた場合も同様です。
-
知的財産
a. 本契約に基づく商標ライセンスは付与されず、Llama素材に関連して、Metaまたはライセンシーは、他方またはその関連会社の名称または商標を使用することはできません(Llama素材の説明および再配布における合理的かつ慣習的な使用を除く)。
b. MetaがLlama素材およびMetaが作成した派生作品を所有することを条件として、あなたが作成したLlama素材の派生作品および改変に関しては、あなたとMetaの間で、あなたがその所有者となります。
c. Metaまたはいかなる団体に対し、Llama素材またはLlama 2の出力・結果(その一部を含む)があなたの所有またはライセンス可能な知的財産権を侵害すると主張する訴訟またはその他の手続き(訴訟における反訴または交叉請求を含む)を提起した場合、本契約に基づくライセンスは当該訴訟または請求が提起された日に終了します。また、Llama素材の使用または配布に起因または関連する第三者からの請求からMetaを補償し、免責するものとします。
-
期間および終了。本契約は、あなたが本契約を承諾した時点またはLlama素材にアクセスした時点から効力を生じ、本契約の条件に従って終了するまで有効です。Metaは、あなたが本契約の条件に違反した場合、本契約を終了させることができます。本契約終了時、あなたはLlama素材を削除し、使用を停止するものとします。第3条、第4条、第7条は本契約終了後も存続します。
-
準拠法および管轄。本契約はカリフォルニア州法に準拠し解釈されます。国際物品売買契約に関する国際連合条約は適用されません。本契約に起因する紛争については、カリフォルニア州の裁判所が専属的管轄権を有します。
Llama 2 許容使用ポリシー
Metaは、Llama 2を含む自社ツールおよび機能の安全かつ公正な使用を促進しています。Llama 2にアクセスまたは使用する場合、本許容使用ポリシー(「ポリシー」)に同意したものとみなされます。最新版のポリシーはai.meta.com/llama/use-policyで確認できます。
禁止される使用法
安全かつ責任あるLlama 2の使用を促進するため、以下の行為は禁止されています:
- 法律または他者の権利を侵害する行為:
- 暴力またはテロリズム、児童の搾取・危害(児童性的虐待コンテンツの勧誘、作成、取得、拡散または報告義務の不履行)、人身売買・性的暴力、未成年者への違法な情報・資料の配布(わいせつ資料を含む)、性的勧誘、その他の犯罪行為に関与、促進、生成、寄与、奨励、計画、扇動すること。
- 個人または集団に対する嫌がらせ、虐待、脅迫、いじめに関与、促進、扇動、助長すること。
- 雇用、雇用福利厚生、信用、住宅、その他の経済的利益または必須財・サービスの提供における差別またはその他の違法・有害な行為に関与、促進、扇動、助長すること。
- 金融、法律、医療/健康または関連専門職を含む無許可・無免許の専門行為を行うこと。
- 適用される法律で要求される権利および同意なしに、個人の健康、人口統計またはその他の機密個人情報を収集、処理、開示、生成、推論すること。
- 第三者の権利(Llama 2素材を使用した製品・サービスの出力・結果を含む)を侵害、盗用、その他の方法で侵害する行為またはコンテンツの生成に関与、助長すること。
- マルウェア、コンピュータウイルスを作成、生成、助長する行為、またはウェブサイト・コンピュータシステムの正常な動作、完全性、運用、外観を妨害、過負荷、干渉、損なう行為を行うこと。
- 死亡または身体的な危害のリスクを伴う活動に関与、促進、扇動、支援、計画すること:
- 軍事、戦争、核産業・用途、スパイ活動、国際武器取引規則(ITAR)の対象となる物質・活動に関連するLlama 2の使用。
- 銃器および違法武器(兵器開発を含む)。
- 違法薬物および規制物質。
- 重要インフラ、輸送技術、重機械の操作。
- 自傷行為または他者への危害(自殺、自傷、摂食障害を含む)。
- 個人に対する暴力、虐待、身体危害を扇動・促進する意図のあるコンテンツ。
- 他者を故意に欺く・誤解させる行為:
- 詐欺または偽情報の生成、促進、助長。
- 中傷的コンテンツ(中傷的声明、画像、その他のコンテンツ)の生成、促進、助長。
- スパムの生成、促進、拡散。
- 同意・権限・法的権利なしに他者を偽装すること。
- Llama 2またはその出力が人間によって生成されたと表示すること。
- 偽のオンライン関与(偽レビューやその他の手段を含む)の生成・助長。
- AIシステムの既知の危険性をエンドユーザーに適切に開示しないこと。 本ポリシー違反、ソフトウェア「バグ」、または本ポリシー違反につながる可能性のある問題は、以下の方法で報告してください:
- モデルの問題報告:github.com/facebookresearch/llama
- モデル生成の危険なコンテンツ報告:developers.facebook.com/llama_output_feedback
- バグおよびセキュリティ懸念報告:facebook.com/whitehat/info
- 許容使用ポリシー違反またはLlamaの無許可使用報告:LlamaUseReport@meta.com extra_gated_fields: 名: text 姓: text 生年月日: date_picker 国: country 所属: text geo: ip_location 下記の送信をクリックすることで、ライセンス条項に同意し、提供する情報がMetaプライバシーポリシーに従って収集、保存、処理、共有されることを承認します: checkbox extra_gated_description: >- 提供いただいた情報は、Metaプライバシーポリシーに従って収集、保存、処理、共有されます。 extra_gated_button_content: 送信 language:
- ja pipeline_tag: text-generation tags:
- meta
- pytorch
- llama
- llama-2 license: llama2
Llama-2-7b-chat-hf GGUF モデル
適切なモデル形式の選択
ハードウェア性能とメモリ制約に基づいて最適なモデル形式を選択してください。
BF16(Brain Float 16) – BF16アクセラレーションが利用可能な場合に使用
- 高速計算を可能にする16ビット浮動小数点形式で、良好な精度を維持します。
- FP32と同様のダイナミックレンジを提供しつつ、メモリ使用量を削減。
- ハードウェアがBF16アクセラレーションをサポートしている場合に推奨(デバイスの仕様を確認)。
- FP32と比較してメモリフットプリントを削減しつつ、高性能推論を実現。
📌 BF16を使用する場合:
✔ ハードウェアがBF16をネイティブサポート(例:新しいGPU、TPU)。
✔ 高精度を維持しつつメモリを節約したい場合。
✔ モデルを別形式に再量子化する予定がある場合。
📌 BF16を避ける場合:
❌ ハードウェアがBF16をサポートしていない(FP32にフォールバックし遅くなる可能性)。
❌ BF16最適化がない古いデバイスでの互換性が必要な場合。
F16(Float 16) – BF16より広くサポート
- 16ビット浮動小数点形式で、BF16より範囲は狭いが高精度。
- FP16アクセラレーションをサポートする多くのデバイス(GPUや一部CPU)で動作。
- BF16より数値精度は低いが、推論には一般的に十分。
📌 F16を使用する場合:
✔ ハードウェアがFP16をサポートしているがBF16は未対応の場合。
✔ 速度、メモリ使用量、精度のバランスが必要な場合。
✔ GPUなどFP16計算に最適化されたデバイスで実行する場合。
📌 F16を避ける場合:
❌ デバイスがネイティブFP16サポートなし(予想より遅くなる可能性)。
❌ メモリ制約が厳しい場合。
量子化モデル(Q4_K、Q6_K、Q8など) – CPU & 低VRAM環境向け
量子化によりモデルサイズとメモリ使用量を削減しつつ、可能な限り精度を維持。
- 低ビットモデル(Q4_K) → 最小メモリ使用、精度は低め。
- 高ビットモデル(Q6_K、Q8_0) → 精度向上、より多くのメモリを必要。
📌 量子化モデルを使用する場合:
✔ CPUで推論を実行し、最適化されたモデルが必要な場合。
✔ デバイスのVRAMが少なく、フル精度モデルをロードできない場合。
✔ メモリフットプリントを削減しつつ、合理的な精度を維持したい場合。
📌 量子化モデルを避ける場合:
❌ 最高精度が必要な場合(フル精度モデルが適しています)。
❌ ハードウェアに高精度形式(BF16/F16)用の十分なVRAMがある場合。
超低ビット量子化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
メモリ効率を極限まで追求したモデルで、低電力デバイスや大規模展開に最適。
-
IQ3_XS: 3ビット量子化で極限のメモリ効率。
- 使用例: Q4_Kでも大きすぎる超低メモリデバイス向け。
- トレードオフ: 高ビット量子化より精度低下。
-
IQ3_S: 小ブロックサイズで最大メモリ効率。
- 使用例: IQ3_XSが過剰な低メモリデバイス向け。
-
IQ3_M: 中ブロックサイズでIQ3_Sより高精度。
- 使用例: IQ3_Sが制限すぎる低メモリデバイス向け。
-
Q4_K: 4ビット量子化でブロック最適化により精度向上。
- 使用例: Q6_Kが大きすぎる低メモリデバイス向け。
-
Q4_0: 純粋な4ビット量子化、ARMデバイス向けに最適化。
- 使用例: ARMベースデバイスまたは低メモリ環境向け。
モデル形式選択のまとめ
モデル形式 | 精度 | メモリ使用量 | デバイス要件 | 最適な使用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | BF16対応GPU/CPU | メモリ削減した高速推論 |
F16 | 高 | 高 | FP16対応デバイス | BF16未対応時のGPU推論 |
Q4_K | 中~低 | 低 | CPUまたは低VRAMデバイス | メモリ制約が厳しい環境 |
Q6_K | 中 | 中 | メモリ豊富なCPU | 量子化モデルの中では高精度 |
Q8_0 | 高 | 中 | VRAMが十分なCPU/GPU | 量子化モデル中最も高精度 |
IQ3_XS | 非常に低 | 非常に低 | 超低メモリデバイス | メモリ効率最優先、精度は低め |
Q4_0 | 低 | 低 | ARMまたは低メモリデバイス | llama.cppがARM向けに最適化 |
含まれるファイルと詳細
Llama-2-7b-chat-hf-bf16.gguf
- BF16で保存されたモデルウェイト。
- 別形式に再量子化する場合に最適。
- デバイスがBF16アクセラレーションをサポートしている場合に推奨。
Llama-2-7b-chat-hf-f16.gguf
- F16で保存されたモデルウェイト。
- BF16が利用できない場合でFP16をサポートするデバイス向け。
Llama-2-7b-chat-hf-bf16-q8_0.gguf
- 出力&埋め込み層はBF16維持。
- その他の層はQ8_0で量子化。
- BF16サポートデバイスで量子化版が必要な場合に最適。
Llama-2-7b-chat-hf-f16-q8_0.gguf
- 出力&埋め込み層はF16維持。
- その他の層はQ8_0で量子化。
Llama-2-7b-chat-hf-q4_k.gguf
- 出力&埋め込み層はQ8_0で量子化。
- その他の層はQ4_Kで量子化。
- メモリ制約のあるCPU推論に適しています。
Llama-2-7b-chat-hf-q4_k_s.gguf
- 最小のQ4_Kバリアントで、メモリ使用量を抑える代わりに精度低下。
- 極低メモリ環境向け。
Llama-2-7b-chat-hf-q6_k.gguf
- 出力&埋め込み層はQ8_0で量子化。
- その他の層はQ6_Kで量子化。
Llama-2-7b-chat-hf-q8_0.gguf
- 完全なQ8量子化モデルで高精度を実現。
- より多くのメモリを必要とするが、高精度を提供。
Llama-2-7b-chat-hf-iq3_xs.gguf
- IQ3_XS量子化で極限のメモリ効率を実現。
- 超低メモリデバイス向け。
Llama-2-7b-chat-hf-iq3_m.gguf
- IQ3_M量子化で中ブロックサイズを採用し精度向上。
- 低メモリデバイスに適しています。
Llama-2-7b-chat-hf-q4_0.gguf
- 純粋なQ4_0量子化、ARMデバイス向けに最適化。
- 低メモリ環境向け。
- より高い精度が必要な場合はIQ4_NLを推奨。
🚀 これらのモデルが役立った場合
❤ ボタンをクリックしてください。また、👉 Network Monitor Assistant のテストも大歓迎です。
💬 メインページまたはダッシュボード右下のチャットアイコンをクリックし、LLMを選択(TurboLLM -> FreeLLM -> TestLLM を切り替え可能)。
現在のテスト内容
ネットワーク監視サービス向けの関数呼び出しをオープンソースの小型モデルで実験中。「どれほど小型化しても機能するか」がテーマです。
🟡 TestLLM – llama.cppを使用した現在のテストモデル(CPU VMの6スレッドで実行、約15秒でロード。推論速度は遅く、1ユーザープロンプトずつ処理—スケーリング検討中!)。仕組みに興味があれば説明します!
その他の利用可能なAIアシスタント
🟢 TurboLLM – gpt-4o-miniを使用し高速! ※OpenAIモデルは高額のためトークン制限あり。ログイン または 無料エージェントダウンロード で追加トークン取得可能。TestLLMも利用可。
🔵 HugLLM – Hugging Faceのオープンソースモデルを実行(小型モデル≈8Bのため品質は低め)。トークン2倍(Hugging Face APIの可用性に依存)。



