Llama-3-Open-Ko-8B-Instruct-previewオープンソース言語モデル - 韓英バイリンガル交流対話をサポート

ホーム

Llama 3 Open Ko 8B Instruct Preview

beomiによって開発

Llama-3-8Bを基に継続的にプリトレーニングされた韓国語言語モデルで、公開利用可能な60GB以上の重複除去テキストでトレーニングされ、韓国語と英語をサポートします。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #韓国語最適化 #マルチターン会話 #TPU効率的トレーニング

ダウンロード数 6,014

リリース時間 : 4/23/2024

モデル概要

これはLlama-3-8Bアーキテクチャを基にした韓国語言語モデルで、継続的なプリトレーニングと指示微調整を経ており、韓国語テキスト生成タスクに適しています。

モデル特徴

韓国語最適化

韓国語に特化して最適化トレーニングを行い、新しいLlama-3トークナイザーで韓国語テキストを処理します。

指示追従

Chat Vector論文の手法を用いて指示微調整を行い、ユーザーの指示により適切に従うことができます。

公開データトレーニング

完全に公開利用可能な60GB以上の重複除去テキストを使用してトレーニングされ、データソースの透明性を確保しています。

モデル能力

韓国語テキスト生成

英語テキスト生成

コード生成

質問応答システム

知識説明

使用事例

教育

韓国語教育補助

学生が韓国語の文法と語彙を理解するのを支援

正確な韓国語の説明と例を提供

プログラミング

コード生成

韓国語の説明に基づいてPythonコードを生成

例ではフィボナッチ数列の複数の実装方法を示しています

歴史

歴史人物説明

韓国の歴史人物と出来事を詳細に説明

李舜臣将軍に関する包括的な紹介を提供

🚀 Llama-3-Open-Ko-8B-Instruct-preview

Llama-3-Open-Ko-8B-Instruct-previewは、自然言語処理の分野において、韓国語を対象とした強力な言語モデルです。このモデルは、Llama-3-8Bをベースにしており、公開されているリソースを用いて継続的に事前学習が行われています。これにより、韓国語に特化した高性能な言語処理が可能となり、新しいチャットやインストラクションモデルを作成するための優れた出発点となります。

🚀 クイックスタート

このモデルを使うには、transformersライブラリを利用します。以下のコードで簡単に使用できます。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "beomi/Llama-3-Open-Ko-8B-Instruct-preview"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "친절한 챗봇으로서 상대방의 요청에 최대한 자세하고 친절하게 답하자. 모든 대답은 한국어(Korean)으로 대답해줘."},
    {"role": "user", "content": "피보나치 수열이 뭐야? 그리고 피보나치 수열에 대해 파이썬 코드를 짜줘볼래?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    eos_token_id=terminators,
    do_sample=True,
    temperature=1,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

✨ 主な機能

公開リソースを活用した学習：このモデルは、公開されている60GB以上の重複排除されたテキストを用いて学習されています。これにより、広範な知識を持ち、多様なタスクに対応できます。
新しいトークナイザーを使用：Llama-3の新しいトークナイザーを使用して、177億以上のトークンで事前学習が行われています。これにより、韓国語のトークン化がより効果的に行われ、精度が向上します。
インストラクションモデルの提供：Chat Vector paperのアイデアを適用して、Llama-3-Open-Ko-8B-Instruct-previewというインストラクションモデルを公開しています。これにより、ユーザーの指示に沿った回答が可能となります。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers torch

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "beomi/Llama-3-Open-Ko-8B-Instruct-preview"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "친절한 챗봇으로서 상대방의 요청에 최대한 자세하고 친절하게 답하자. 모든 대답은 한국어(Korean)으로 대답해줘."},
    {"role": "user", "content": "피보나치 수열이 뭐야? 그리고 피보나치 수열에 대해 파이썬 코드를 짜줘볼래?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    eos_token_id=terminators,
    do_sample=True,
    temperature=1,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

高度な使用法

以下は、他の質問をする例です。

messages = [
    {"role": "system", "content": "친절한 챗봇으로서 상대방의 요청에 최대한 자세하고 친절하게 답하자. 모든 대답은 한국어(Korean)으로 대답해줘."},
    {"role": "user", "content": "한국의 제헌 헌법에 대해서 자세히 설명해주세요."},
]

🔧 技術詳細

Llama-3-Open-Ko-8Bモデルは、Llama-3-8Bをベースにして継続的に事前学習が行われた言語モデルです。このモデルは、公開されているリソースを用いて、60GB以上の重複排除されたテキストで学習されています。新しいLlama-3トークナイザーを使用して、17.7B以上のトークンで事前学習が行われており、これは韓国語のトークナイザー（Llama-2-Koトークナイザー）よりも若干多いトークン数です。

学習は、GoogleのTRCプログラムからの温かいサポートを受けて、TPUv5e-256上で行われました。Chat Vector paperのアイデアを適用して、Llama-3-Open-Ko-8B-Instruct-previewというインストラクションモデルを公開しています。このモデルは、まだ韓国語のインストラクションセットで微調整されていないため、previewという名称が付けられていますが、新しいチャットやインストラクションモデルを作成するための優れた出発点となります。