Meta-Llama-3-8B-Instruct-GPTQオープンソース大規模言語モデル - 対話の最適化と実用性と安全性の両立

ホーム

Meta Llama 3 8B Instruct GPTQ

TechxGenusによって開発

Metaが開発した80億パラメータの大規模言語モデルで、対話シーンに最適化され、実用性とセキュリティを兼ね備えています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #対話最適化 #多輪対話 #命令微調整

ダウンロード数 3,491

リリース時間 : 4/19/2024

モデル概要

Llama 3はMetaが開発した大規模言語モデルシリーズで、80億と700億のパラメータバージョンがあります。この命令調整バージョンは対話シーン向けに設計され、業界のベンチマークテストで優れた性能を発揮し、同時にセキュリティと実用性にも配慮しています。

モデル特徴

多バージョン選択

80億と700億の2種類のパラメータ規模を提供し、さまざまな計算要件のシーンに対応します。

対話最適化

命令調整とRLHFトレーニングを経て、対話シーンで多くのオープンソースチャットモデルよりも優れた性能を発揮します。

セキュリティ設計

開発過程で特にセキュリティと規制遵守に配慮し、詳細な使用ポリシー制限が含まれています。

効率的なトレーニング

15兆トークンの公開データを使用して事前学習を行い、炭素排出量はMetaの持続可能な開発計画によって相殺されます。

モデル能力

テキスト生成

コード生成

対話インタラクション

命令追従

使用事例

ビジネスアシスタント

カスタマーサービスチャットボット

複雑なクエリを理解できる英語のカスタマーサービスシステムを構築します。

業界のベンチマークテストで同類のオープンソースモデルよりも優れた性能を発揮します。

研究開発

NLP実験プラットフォーム

自然言語処理研究の基礎モデルとして使用します。

微調整可能な80億/700億パラメータバージョンを提供します。

🚀 Meta-Llama-3-8B-Instruct

Meta-Llama-3-8B-Instructは、Metaが開発・公開した大規模言語モデルです。このモデルは、商用および研究用途に最適化されており、会話や自然言語生成タスクで高い性能を発揮します。

🚀 クイックスタート

Meta-Llama-3-8B-Instructは、商用および英語での研究用途を目的としています。命令調整済みモデルはアシスタントのようなチャットに最適化されており、事前学習モデルは様々な自然言語生成タスクに適用できます。

✨ 主な機能

高性能: Llama 3の命令調整済みモデルは、会話用途に最適化されており、多くのオープンソースチャットモデルを上回る性能を発揮します。
安全性: これらのモデルを開発する際には、有用性と安全性の最適化に力を入れました。
拡張性: 8Bと70Bの2つのサイズのパラメータで提供され、Grouped-Query Attention (GQA) を使用して推論の拡張性を向上させています。

📦 インストール

このリポジトリには、transformersとオリジナルのllama3コードベースで使用するための2つのバージョンのMeta-Llama-3-8B-Instructが含まれています。

Transformersを使用する場合

以下のコードスニペットを参照してください。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

`llama3`を使用する場合

リポジトリの指示に従ってください。オリジナルのチェックポイントをダウンロードするには、以下のコマンドを使用します。

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct

💻 使用例

基本的な使用法

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

高度な使用法

# 高度な使用法の説明は省略。上記のコードをそのまま使用。
import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

📚 ドキュメント

モデルの詳細

プロパティ	詳細
モデル開発者	Meta
バリエーション	Llama 3は、事前学習と命令調整の2つのバリエーションで、8Bと70Bの2つのサイズのパラメータで提供されます。
入力	モデルはテキストのみを入力とします。
出力	モデルはテキストとコードのみを生成します。
モデルアーキテクチャ	Llama 3は、最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。調整済みバージョンは、教師付き微調整 (SFT) と人間のフィードバックを用いた強化学習 (RLHF) を使用して、有用性と安全性に関する人間の嗜好に合わせて調整されています。

モデル	学習データ	パラメータ	コンテキスト長	GQA	トークン数	知識カットオフ
Llama 3	公開されているオンラインデータの新しいミックス	8B	8k	はい	15T+	2023年3月
Llama 3	公開されているオンラインデータの新しいミックス	70B	8k	はい	15T+	2023年12月

意図された使用法

意図された使用ケース: Llama 3は、英語での商用および研究用途を目的としています。命令調整済みモデルはアシスタントのようなチャットに最適化されており、事前学習モデルは様々な自然言語生成タスクに適用できます。
範囲外: 適用される法律や規制 (貿易コンプライアンス法律を含む) に違反する方法での使用。許容使用ポリシーとLlama 3コミュニティライセンスによって禁止されている他の方法での使用。英語以外の言語での使用。

ハードウェアとソフトウェア

モデル	時間 (GPU時間)	消費電力 (W)	排出された二酸化炭素 (tCO2eq)
Llama 3 8B	130万	700	390
Llama 3 70B	640万	700	1900
合計	770万		2290

学習データ

概要: Llama 3は、公開されているソースからの15兆を超えるトークンのデータで事前学習されています。微調整データには、公開されている命令データセットと、1000万を超える人間によるアノテーション付きの例が含まれています。事前学習データセットと微調整データセットのどちらにも、Metaのユーザーデータは含まれていません。
データの鮮度: 事前学習データは、7Bモデルの場合は2023年3月、70Bモデルの場合は2023年12月をそれぞれカットオフとしています。