Llama 3.1 8B Instruct

RedHatAIによって開発

Meta Llama 3.1シリーズの多言語大規模言語モデルで、8Bパラメータ規模を含み、多言語対話ユースケースに最適化され、8言語をサポートします。

大規模言語モデル

Safetensors

複数言語対応#多言語アシスタント #128k長文処理 #強化学習最適化

ダウンロード数 292

リリース時間 : 5/9/2025

モデル概要

Llama 3.1はMetaが開発した事前学習および指示チューニング生成モデルで、商業および研究用途に適しており、特に多言語対話シナリオに最適化されています。

モデル特徴

多言語サポート

8言語の対話生成能力に特化して最適化されています

長文コンテキスト処理

128kトークンのコンテキスト長をサポートします

効率的な推論

グループ化クエリ注意（GQA）メカニズムを採用し、推論効率を向上させます

安全かつ準拠

厳格な利用許諾ポリシーとコミュニティライセンス契約に従います

モデル能力

多言語テキスト生成

コード生成

対話アシスタント

テキスト要約

質問応答システム

合成データ生成

使用事例

商業アプリケーション

多言語カスタマーサポートアシスタント

企業向けに多言語カスタマーサポートサービスを提供します

8言語の流暢な対話をサポートします

コンテンツ作成

多言語マーケティングコンテンツの生成を支援します

高品質なコピー生成

研究アプリケーション

モデル蒸留

モデル出力を利用して他のモデルを改善します

小型モデルの性能向上

言語学研究

多言語能力の研究

言語間転移学習

language:

en
de
fr
it
pt
hi
es
th license: llama3.1 base_model: meta-llama/Meta-Llama-3.1-8B pipeline_tag: text-generation tags:
facebook
meta
pytorch
llama
llama-3 extra_gated_prompt: "### LLAMA 3.1 コミュニティライセンス契約\nLlama 3.1 バージョンリリース日: 2024年7月23日\n「本契約」とは、Llama素材の使用、複製、配布および改変に関する本契約に定める条件を意味します。\n「ドキュメンテーション」とは、Metaがhttps://llama.meta.com/doc/overviewで配布するLlama 3.1に付随する仕様書、マニュアルおよびドキュメンテーションを意味します。\n「ライセンシー」または「あなた」とは、適用される法律、規則または規制の下で法的同意を提供するのに必要な年齢に達しており、雇用主またはその他の個人または団体に代わって本契約を締結する場合には、当該雇用主またはその他の個人または団体を法的に拘束する権限を有する、あなた、あなたの雇用主またはその他の個人または団体を意味します。\n「Llama 3.1」とは、https://llama.meta.com/llama-downloadsでMetaが配布する、機械学習モデルコード、訓練済みモデル重み、推論を可能にするコード、訓練を可能にするコード、ファインチューニングを可能にするコードおよびその他の要素を含む、基盤となる大規模言語モデルおよびソフトウェアならびにアルゴリズムを意味します。\n「Llama素材」とは、本契約の下で利用可能となる、Metaの専有するLlama 3.1およびドキュメンテーション（およびその一部）を総称して意味します。\n「Meta」または「当社」とは、EEAまたはスイスに所在する場合（または団体の場合には主たる事業所がEEAまたはスイスにある場合）にはMeta Platforms Ireland Limitedを、EEAまたはスイス以外に所在する場合にはMeta Platforms, Inc.を意味します。\n \n1. ライセンス権利および再配布。\na. 権利の付与。あなたは、Llama素材に具現化されたMetaの知的財産権またはその他の権利に基づき、Llama素材を使用、複製、配布、複写、派生著作物を作成し、および改変するための、非独占的、世界的、譲渡不能かつロイヤリティ無料の限定ライセンスを付与されます。\nb. 再配布および使用。\ni. あなたがLlama素材（またはその派生著作物）、またはそれらを含む製品またはサービス（他のAIモデルを含む）を配布または利用可能にする場合、(A)当該Llama素材に本契約の写しを添付すること、および(B)関連するウェブサイト、ユーザーインターフェース、ブログ記事、アバウトページまたは製品ドキュメンテーションにおいて「Built with Llama」を目立つように表示するものとします。Llama素材またはLlama素材の出力または結果を使用して、配布または利用可能となるAIモデルを作成、訓練、ファインチューニングまたはその他の方法で改善する場合、当該AIモデル名の冒頭に「Llama」を含めるものとします。\nii. あなたが統合エンドユーザー製品の一部としてライセンシーからLlama素材またはその派生著作物を受領する場合、本契約の第2条はあなたには適用されません。\niii. あなたが配布するLlama素材のすべての複製において、当該複製の一部として配布される「Notice」テキストファイル内に以下の帰属表示を保持する必要があります:「Llama 3.1はLlama 3.1 Community Licenseの下でライセンスされており、Copyright © Meta Platforms, Inc. All Rights Reserved。」\niv. Llama素材の使用は、適用される法律および規制（貿易コンプライアンス法規を含む）に準拠し、Llama素材の許容使用ポリシー（https://llama.meta.com/llama3_1/use-policyで利用可能）を遵守する必要があります。許容使用ポリシーは参照により本契約に組み込まれます。\n2. 追加の商業的条件。Llama 3.1バージョンリリース日において、ライセンシーまたはライセンシーの関連会社により利用可能とされる製品またはサービスの月間アクティブユーザーが前暦月において7億人を超える場合、あなたはMetaからライセンスを請求する必要があり、Metaが単独の裁量で付与する場合を除き、Metaが明示的にそのような権利を付与するまで、本契約の下でのいかなる権利も行使する権限を有しません。\n3. 保証の免責。適用される法律で要求されない限り、Llama素材およびそこからの出力または結果は「現状有姿」で提供され、いかなる種類の保証もなく、Metaは明示的または黙示的を問わず、所有権、非侵害、商品性または特定の目的への適合性を含むいかなる保証も否認します。Llama素材の使用または再配布の適切性を判断する責任はあなたにあり、Llama素材およびその出力または結果の使用に伴ういかなるリスクもあなたが負担するものとします。\n4. 責任の制限。いかなる場合にも、Metaまたはその関連会社は、本契約に起因して、契約、不法行為、過失、製品責任その他いかなる責任理論の下でも、逸失利益または間接的、特別、結果的、付随的、懲罰的または模範的損害について責任を負わず、Metaまたはその関連会社がそのような可能性について助言を受けていた場合でも同様とします。\n5. 知的財産。\na. 本契約の下では商標ライセンスは付与されず、Llama素材に関連して、Metaもライセンシーも、Llama素材の記述および再配布における合理的かつ慣習的な使用または本第5条(a)項に定める場合を除き、他方またはその関連会社が所有または関連するいかなる名称または商標も使用できません。Metaはここに、第1条(b)(i)項の最後の文を遵守するために必要な範囲でのみ「Llama」（「商標」）を使用するライセンスをあなたに付与します。あなたはMetaのブランドガイドライン（現在はhttps://about.meta.com/brand/resources/meta/company-brand/でアクセス可能）を遵守するものとします。商標の使用から生じるすべての信用はMetaに帰属します。\nb. MetaがLlama素材およびMetaによりまたはMetaのために作成された派生著作物を所有することに従い、あなたが作成したLlama素材の派生著作物および改変に関しては、あなたとMetaの間で、あなたが当該派生著作物および改変の所有者であるものとします。\nc. あなたが、Llama素材またはLlama 3.1の出力または結果、またはそのいずれかの一部が、あなたが所有またはライセンス可能な知的財産権またはその他の権利の侵害を構成すると主張して、Metaまたはいかなる団体（訴訟における交叉請求または反訴を含む）に対して訴訟またはその他の手続きを提起した場合、本契約の下であなたに付与されたすべてのライセンスは、当該訴訟または請求が提起または開始された日をもって終了します。あなたは、Llama素材の使用または配布に起因または関連して第三者から生じるいかなる請求からもMetaを補償し免責するものとします。\n6. 期間および終了。本契約の期間は、あなたが本契約を受諾した時またはLlama素材にアクセスした時に開始し、本契約の条件に従って終了するまで完全な効力を有して継続します。Metaは、あなたが本契約のいずれかの条件に違反した場合、本契約を終了することができます。本契約の終了時、あなたはLlama素材の使用を停止し削除するものとします。第3条、第4条および第7条は、本契約の終了後も存続します。\n7. 準拠法および管轄。本契約は、国際物品売買契約に関する国際連合条約を適用除外として、カリフォルニア州の法律に従って解釈され、カリフォルニア州の裁判所は本契約から生じるいかなる紛争についても専属的管轄権を有します。\n### Llama 3.1 許容使用ポリシー\nMetaは、Llama 3.1を含むそのツールおよび機能の安全かつ公正な使用を促進することを約束します。あなたがLlama 3.1にアクセスまたは使用する場合、本許容使用ポリシー（「ポリシー」）に同意するものとします。本ポリシーの最新版はhttps://llama.meta.com/llama3_1/use-policyで確認できます。\n#### 禁止される使用\n私たちは、誰もがLlama 3.1を安全かつ責任を持って使用することを望んでいます。あなたは、Llama 3.1を以下の目的で使用したり、他の者に使用させたりしないことに同意するものとします:\n 1. 法律または他人の権利を侵害すること、以下を含む:\n 1. 以下を含む、違法または不法な活動またはコンテンツに関与、促進、生成、寄与、奨励、計画、扇動または助長すること:\n 1. 暴力またはテロリズム\n 2. 児童の搾取または危害、児童性的虐待コンテンツの勧誘、作成、取得または頒布、または児童性的虐待素材の報告の不履行\n 3. 人身取引、搾取および性的暴力\n 4. 未成年者への情報または素材の違法な配布、わいせつな素材を含む、または当該情報または素材に関連して法律上必要な年齢制限を実施しないこと\n 5. 性的勧誘\n 6. その他の犯罪行為\n 3. 個人または個人のグループに対する嫌がらせ、虐待、脅迫またはいじめに関与、促進、扇動または助長すること\n 4. 雇用、雇用給付、信用、住宅、その他の経済的利益またはその他の必須財・サービスの提供における差別またはその他の違法または有害な行為に関与、促進、扇動または助長すること\n 5. 金融、法律、医療/健康または関連する専門職を含むがこれに限らない、いかなる専門職の無許可または無免許での開業\n 6. 適用される法律で要求される権利および同意なしに、個人に関する健康、人口統計またはその他の機密個人情報またはプライベート情報を収集、処理、開示、生成または推論すること\n 7. 第三者の権利を侵害、不当流用またはその他の方法で侵害するいかなる行為に関与または助長すること、またはLlama素材を使用した製品またはサービスの出力または結果を含むいかなるコンテンツを生成すること\n 8. 悪意のあるコード、マルウェア、コンピュータウイルスを作成、生成または助長すること、またはウェブサイトまたはコンピュータシステムの適切な動作、完全性、操作または外観を無効化、過負荷、干渉または損なういかなる行為を行うこと\n2. 個人の死亡または身体的危害のリスクを伴う活動の計画または開発に関与、促進、扇動、助長または支援すること、Llama 3.1の以下に関連する使用を含む:\n 1. 軍事、戦争、核産業または用途、諜報、米国国務省が維持する国際武器取引規則(ITAR)の対象となる素材または活動\n 2. 銃器および違法な武器（武器開発を含む）\n 3. 違法薬物および規制/管理物質\n 4. 重要インフラ、輸送技術または重機械の操作\n 5. 自傷行為または他人への危害、自殺、自傷、摂食障害を含む\n 6. 個人に対する暴力、虐待またはいかなる身体的危害を扇動または促進することを意図したコンテンツ\n3. 他人を故意に欺くまたは誤解させること、Llama 3.1の以下に関連する使用を含む:\n 1. 詐欺または偽情報の作成または促進の生成、促進または助長\n 2. 中傷的コンテンツの生成、促進または助長、中傷的声明、画像またはその他のコンテンツの作成を含む\n 3. スパムの生成、促進または頒布\n 4. 同意、許可または法的権利なしに他人を偽装すること\n 5. Llama 3.1または出力が人間によって生成されたものであると表示すること\n 6. 偽のオンライン関与の生成または助長、偽のレビューおよびその他の偽のオンライン関与手段を含む\n4. あなたのAIシステムの既知の危険性をエンドユーザーに適切に開示しないこと\n本ポリシー違反、ソフトウェア「バグ」または本ポリシー違反につながる可能性のあるその他の問題を以下のいずれかの方法で報告してください:\n * モデルに関する問題の報告: https://github.com/meta-llama/llama-models/issues\n * モデルによって生成されたリスクのあるコンテンツの報告:\n developers.facebook.com/llama_output_feedback\n * バグおよびセキュリティ上の懸念の報告: facebook.com/whitehat/info\n * 許容使用ポリシーの違反またはMeta Llama 3の無許可使用の報告: LlamaUseReport@meta.com" extra_gated_fields: 名: text 姓: text 生年月日: date_picker 国: country 所属: text 職種: type: select options:
- 学生
- 大学院生
- AI研究者
- AI開発者/エンジニア
- 記者
- その他 geo: ip_location ? 以下の「送信」をクリックすることで、ライセンス条件に同意し、提供する情報がMetaプライバシーポリシーに従って収集、保存、処理および共有されることを確認します : checkbox extra_gated_description: 提供いただく情報は、Metaプライバシーポリシーに従って収集、保存、処理および共有されます。 extra_gated_button_content: 送信

Llama-3.1-8B-Instruct

モデル情報

Built with Llama

Meta Llama 3.1シリーズの多言語大規模言語モデル(LLM)は、8B、70B、405Bサイズの事前訓練済みおよび指示調整済み生成モデルのコレクションです（テキスト入力/テキスト出力）。Llama 3.1の指示調整済みテキスト専用モデル（8B、70B、405B）は、多言語対話ユースケース向けに最適化されており、一般的な業界ベンチマークで多くのオープンソースおよびクローズドチャットモデルを凌駕しています。

モデル開発者: Meta

モデルアーキテクチャ: Llama 3.1は、最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。調整済みバージョンは、教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF)を使用して、人間の好みに沿った有用性と安全性を実現しています。

	トレーニングデータ	パラメータ	入力モダリティ	出力モダリティ	コンテキスト長	GQA	トークン数	知識カットオフ
Llama 3.1 (テキスト専用)	新たに公開されたオンラインデータの混合	8B	多言語テキスト	多言語テキストとコード	128k	はい	15T+	2023年12月
		70B	多言語テキスト	多言語テキストとコード	128k	はい
		405B	多言語テキスト	多言語テキストとコード	128k	はい

対応言語: 英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語。

Llama 3.1モデルファミリー。トークン数は事前トレーニングデータのみを指します。すべてのモデルバージョンは、推論スケーラビリティを向上させるためにグループ化クエリ注意(GQA)を使用しています。

モデルリリース日: 2024年7月23日。

ステータス: これはオフラインデータセットでトレーニングされた静的モデルです。調整済みモデルの将来のバージョンは、コミュニティフィードバックによりモデルの安全性を向上させるにつれてリリースされます。

ライセンス: カスタム商用ライセンスであるLlama 3.1 Community Licenseが利用可能です: https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE

モデルに関する質問やコメントを送信する場所モデルに関するフィードバックやコメントを提供する方法の説明は、モデルREADMEに記載されています。生成パラメータに関するより技術的な情報や、Llama 3.1をアプリケーションで使用するためのレシピについては、こちらをご覧ください。

想定用途

想定使用ケース Llama 3.1は、複数の言語での商用および研究用途を想定しています。指示調整済みテキスト専用モデルはアシスタントのようなチャットを想定しており、事前訓練済みモデルはさまざまな自然言語生成タスクに適応できます。Llama 3.1モデルコレクションは、合成データ生成や蒸留を含む他のモデルを改善するためにそのモデルの出力を活用する機能もサポートしています。Llama 3.1 Community Licenseはこれらの使用ケースを許可しています。

範囲外 適用される法律または規制（貿易コンプライアンス法を含む）に違反する方法での使用。許容使用ポリシーおよびLlama 3.1 Community Licenseで禁止されているその他の方法での使用。このモデルカードで明示的に参照されている対応言語以外の言語での使用。

**注: Llama 3.1は、8つの対応言語よりも広範な言語でトレーニングされています。開発者は、Llama 3.1 Community Licenseおよび許容使用ポリシーに準拠し、追加言語でのLlama 3.1の使用が安全かつ責任を持って行われることを保証する責任を負う場合、8つの対応言語を超える言語に対してLlama 3.1モデルをファインチューニングできます。

使用方法

このリポジトリには、transformersおよび元のllamaコードベースで使用するためのMeta-Llama-3.1-8B-Instructの2つのバージョンが含まれています。

デプロイメント

このモデルは、以下の例に示すように、vLLM、Red Hat Enterprise Linux AI、およびOpenshift AIに効率的にデプロイできます。

vLLMにデプロイ

from vllm import LLM, SamplingParams

from transformers import AutoTokenizer

model_id = "RedHatAI/Llama-3.1-8B-Instruct"
number_gpus = 4

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "大規模言語モデルについて簡単に説明してください。"

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompt, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMはOpenAI互換のサービスもサポートしています。詳細はドキュメントをご覧ください。

Red Hat AI推論サーバーにデプロイ

$ podman run --rm -it --device nvidia.com/gpu=all -p 8000:8000 \
 --ipc=host \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" -v ~/.cache/vllm:/home/vllm/.cache \
--name=vllm \
registry.access.redhat.com/rhaiis/rh-vllm-cuda \
vllm serve \
--tensor-parallel-size 8 \
--max-model-len 32768  \
--enforce-eager --model RedHatAI/Llama-3.1-8B-Instruct

詳細はRed Hat AI推論サーバードキュメントをご覧ください。

Red Hat Enterprise Linux AIにデプロイ

# docker経由でRed Hatレジストリからモデルをダウンロード
# 注: これは~/.cache/instructlab/modelsにモデルをダウンロードします（--model-dirが指定されていない場合）。
ilab model download --repository docker://registry.redhat.io/rhelai1/llama-3-1-8b-instruct:1.5

# ilab経由でモデルを提供
ilab model serve --model-path ~/.cache/instructlab/models/llama-3-1-8b-instruct
  
# モデルとチャット
ilab model chat --model ~/.cache/instructlab/models/llama-3-1-8b-instruct

詳細はRed Hat Enterprise Linux AIドキュメントをご覧ください。

Red Hat Openshift AIにデプロイ

# ServingRuntimeでvllmサーバーをセットアップ
# 保存先: vllm-servingruntime.yaml
apiVersion: serving.kserve.io/v1alpha1
kind: ServingRuntime
metadata:
 name: vllm-cuda-runtime # オプション変更: 一意の名前を設定
 annotations:
   openshift.io/display-name: vLLM NVIDIA GPU ServingRuntime for KServe
   opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
 labels:
   opendatahub.io/dashboard: 'true'
spec:
 annotations:
   prometheus.io/port: '8080'
   prometheus.io/path: '/metrics'
 multiModel: false
 supportedModelFormats:
   - autoSelect: true
     name: vLLM
 containers:
   - name: kserve-container
     image: quay.io/modh/vllm:rhoai-2.20-cuda # 必要に応じて変更。AMDの場合: quay.io/modh/vllm:rhoai-2.20-rocm
     command:
       - python
       - -m
       - vllm.entrypoints.openai.api_server
     args:
       - "--port=8080"
       - "--model=/mnt/models"
       - "--served-model-name={{.Name}}"
     env:
       - name: HF_HOME
         value: /tmp/hf_home
     ports:
       - containerPort: 8080
         protocol: TCP

# vllmサーバーにモデルをアタッチ。これはNVIDIAテンプレート
# 保存先: inferenceservice.yaml
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  annotations:
    openshift.io/display-name: llama-3-1-8b-instruct # オプション変更
    serving.kserve.io/deploymentMode: RawDeployment
  name: llama-3-1-8b-instruct          # モデル名を指定。この値はペイロードでモデルを呼び出す際に使用されます
  labels:
    opendatahub.io/dashboard: 'true'
spec:
  predictor:
    maxReplicas: 1
    minReplicas: 1
    model:
      modelFormat:
        name: vLLM
      name: ''
      resources:
        limits:
          cpu: '2'			# これはモデル固有
          memory: 8Gi		# これはモデル固有
          nvidia.com/gpu: '1'	# これはアクセラレータ固有
        requests:			# このブロックにも同じコメントが適用
          cpu: '1'
          memory: 4Gi
          nvidia.com/gpu: '1'
      runtime: vllm-cuda-runtime	# 上記のServingRuntime名と一致させる必要があります
      storageUri: oci://registry.redhat.io/rhelai1/modelcar-llama-3-1-8b-instruct:1.5
    tolerations:
    - effect: NoSchedule
      key: nvidia.com/gpu
      operator: Exists

# まずモデルをデプロイするプロジェクトにいることを確認
# oc project <プロジェクト名>

# モデルを実行するために両リソースを適用

# ServingRuntimeを適用
oc apply -f vllm-servingruntime.yaml

# InferenceServiceを適用
oc apply -f qwen-inferenceservice.yaml

# 以下で<inference-service-name>と<cluster-ingress-domain>を置き換えてください:
# - 不明な場合は`oc get inferenceservice`を実行してURLを確認

# curlを使用してサーバーを呼び出し:
curl https://<inference-service-name>-predictor-default.<ドメイン>/v1/chat/completions
        -H "Content-Type: application/json" \
        -d '{
    "model": "llama-3-1-8b-instruct",
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "max_tokens": 1,
    "messages": [
        {
            "role": "user",
            "content": "ハチはなぜ小さな羽で飛べるのですか？"
        }
    ]
}'

詳細はRed Hat Openshift AIドキュメントをご覧ください。