モデル概要
モデル特徴
モデル能力
使用事例
🚀 Ko-Llama3-Luxia-8B
SaltluxのAI Labs言語モデルチームが学習・公開した「Ko-Llama3-Luxia-8B」モデルは、MetaがリリースしたLlama-3-8Bモデルを韓国語に特化させたモデルです。独自に保有する1TB以上の韓国語学習データのうち、約100GBのデータを選別して事前学習に活用しました。また、公開されたLlama-3 Tokenizerを韓国語用に拡張し、事前学習に利用しました。
🚀 クイックスタート
Ko-Llama3-Luxia-8Bは研究用に作成され、様々な自然言語生成タスクに自由に学習・活用できます。
✨ 主な機能
- Meta Llama-3:Metaは、事前学習と命令微調整された8Bと70Bサイズの生成テキストモデルであるMeta Llama 3シリーズの大規模言語モデル(LLM)を開発・リリースしました。Llama 3の命令微調整モデルは、対話ユースケース向けに最適化されており、一般的な業界ベンチマークで多くのオープンソースチャットモデルを上回っています。さらに、これらのモデルを開発する際には、有用性と安全性を最適化するために細心の注意を払いました。
- ライセンス:Llama3ライセンス https://llama.meta.com/llama3/license
📦 インストール
該当モデルカードでは、Ko-Llama3-Luxia-8B
モデルとtransformersライブラリに基づくサンプルコードを提供しています。
import transformers
import torch
model_id = "saltlux/Ko-Llama3-Luxia-8B"
pipeline = transformers.pipeline(
"text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
)
pipeline("<|begin_of_text|>안녕하세요. 솔트룩스 AI Labs 입니다.")
📚 ドキュメント
モデル詳細
SaltluxのAI Labs言語モデルチームが学習・公開した「Ko-Llama3-Luxia-8B」モデルは、MetaがリリースしたLlama-3-8Bモデルを韓国語に特化させたモデルです。独自に保有する1TB以上の韓国語学習データのうち、約100GBのデータを選別して事前学習に活用しました。また、公開されたLlama-3 Tokenizerを韓国語用に拡張し、事前学習に利用しました。
学習詳細
韓国語特化のための事前学習データは、Saltluxが保有するニュース、法律、特許、医療、歴史、社会、文化、対話(文語/口語)などのドメインで構成される100GB規模のコーパス(~2023年)を活用しました。
- 現在提供されているモデルは1エポック学習されたモデルです。
使用デバイス
事前学習はNVIDIA H100 80GB * 8EAの機器を活用して行われました。
学習ハイパーパラメータ
モデル | パラメータ | コンテキスト長 | GQA | 学習率 | バッチ | 精度 |
---|---|---|---|---|---|---|
Ko-Llama3-Luxia-8B | 8B | 8k | yes | 1e-5 | 128 | bf16 |
Tokenizer
Llama-3-Tokenizerを韓国語特化するために、韓国語トークン17,536個を追加して利用しました。
モデル | 語彙サイズ |
---|---|
Llama-3 | 128,256 |
Ko-Llama3-Luxia-8B | 145,792 |
Tokenizer結果
韓国語
入力 | Llama-3 | Ko-Llama3-Luxia-8B |
---|---|---|
요즘 날씨가 너무 오락가락해서 아직도 겨울옷을 못치웠어요.. | ['요', '즘', ' 날', '씨', '가', ' 너무', ' 오', '락', '가', '락', '해서', ' 아직', '도', ' 겨', '울', '�', '�', '을', ' 못', '치', '웠', '어요', '..'] | ['요즘', ' 날씨', '가', ' 너무', ' 오락', '가락', '해서', ' 아직', '도', ' 겨울', '옷', '을', ' 못', '치', '웠', '어요', '..'] |
맛있는 밥을 드셨습니까? 맛이 궁금하네요. | ['맛', '있는', ' �', '�', '을', ' 드', '셨', '습', '니까', '?', ' 맛', '이', ' 궁금', '하', '네요', '.'] | ['맛', '있는', ' 밥', '을', ' 드셨', '습', '니까', '?', ' 맛', '이', ' 궁금', '하', '네요', '.'] |
대법원부터 하급심 판례까지 원하는 판례를 찾는 가장 빠른 방법 - 서면 검색, 요청 판례, 유사 판례, AI 추천, 판례 및 법령 검색. | ['대', '법', '원', '부터', ' 하', '급', '심', ' 판', '례', '까지', ' 원', '하는', ' 판', '례', '를', ' 찾', '는', ' 가장', ' 빠', '른', ' 방법', ' -', ' 서', '면', ' 검색', ',', ' 요청', ' 판', '례', ',', ' 유', '사', ' 판', '례', ',', ' AI', ' 추천', ',', ' 판', '례', ' 및', ' 법', '령', ' 검색', '.'] | ['대', '법', '원', '부터', ' 하', '급', '심', ' 판례', '까지', ' 원', '하는', ' 판례', '를', ' 찾', '는', ' 가장', ' 빠른', ' 방법', ' -', ' 서면', ' 검색', ',', ' 요청', ' 판례', ',', ' 유사', ' 판례', ',', ' AI', ' 추천', ',', ' 판례', ' 및', ' 법령', ' 검색', '.'] |
본 발명은 금속판의 다수 부분을 에칭시켜 특정 무늬모양을 형성하는 건축용 금속재 장식판으로 이루어진 것에 특징이 있다. | ['본', ' 발', '명', '은', ' 금', '속', '판', '의', ' 다', '수', ' 부분', '을', ' 에', '칭', '시', '켜', ' 특', '정', ' 무', '�', '�', '모', '양', '을', ' 형', '성', '하는', ' 건', '축', '용', ' 금', '속', '재', ' 장', '식', '판', '으로', ' 이루', '어진', ' 것', '에', ' 특', '징', '이', ' 있다', '.'] | ['본', ' 발명', '은', ' 금속', '판', '의', ' 다수', ' 부분', '을', ' 에칭', '시', '켜', ' 특정', ' 무늬', '모', '양', '을', ' 형성', '하는', ' 건축', '용', ' 금속', '재', ' 장식', '판', '으로', ' 이루어진', ' 것', '에', ' 특징', '이', ' 있다', '.'] |
골다공증은 왜 생기는거에요? 그리고 치료하려면 어떻게해야하죠? | ['골', '다', '공', '증', '은', ' 왜', ' 생', '기는', '거', '에', '요', '?', ' 그리고', ' 치', '료', '하려', '면', ' 어떻게', '해야', '하', '죠', '?'] | ['골', '다', '공증', '은', ' 왜', ' 생', '기는', '거', '에', '요', '?', ' 그리고', ' 치료', '하려', '면', ' 어떻게', '해야', '하', '죠', '?'] |
英語
入力 | Llama-3 | Ko-Llama3-Luxia-8B |
---|---|---|
Korean cuisine, hanguk yori, or hansik, has evolved through centuries of social and political change. | ['K', 'orean', ' cuisine', ',', ' h', 'angu', 'k', ' y', 'ori', ',', ' or', ' hans', 'ik', ',', ' has', ' evolved', ' through', ' centuries', ' of', ' social', ' and', ' political', ' change', '.'] | ['K', 'orean', ' cuisine', ',', ' h', 'angu', 'k', ' y', 'ori', ',', ' or', ' hans', 'ik', ',', ' has', ' evolved', ' through', ' centuries', ' of', ' social', ' and', ' political', ' change', '.'] |
Son Heung - min is a South Korean professional footballer who plays as a forward for and captains both Premier League club Tottenham Hotspur and the South Korea national team. | ['Son', ' He', 'ung', '-min', ' is', ' a', ' South', ' Korean', ' professional', ' football', 'er', ' who', ' plays', ' as', ' a', ' forward', ' for', ' and', ' captains', ' both', ' Premier', ' League', ' club', ' Tottenham', ' Hot', 'sp', 'ur', ' and', ' the', ' South', ' Korea', ' national', ' team', '.'] | ['Son', ' He', 'ung', '-min', ' is', ' a', ' South', ' Korean', ' professional', ' football', 'er', ' who', ' plays', ' as', ' a', ' forward', ' for', ' and', ' captains', ' both', ' Premier', ' League', ' club', ' Tottenham', ' Hot', 'sp', 'ur', ' and', ' the', ' South', ' Korea', ' national', ' team', '.'] |
推論結果
Llama-3 | Ko-Llama3-Luxia-8B |
---|---|
캐리비안베이는 용인에 위치한 캐리비안 베이の公式オンラインカ지ノです。 캐리비안 베이는1994年から運営されており、2005年にオンラインでオープンしました。このサイトは英国で運営されるライセンスを持っており、英国政府に承認されています。 캐리비안 베イは様々なゲームを提供します。スロットマシン、ブラックジャック、ルーレット、ポーカー、バカラなどがあります。また、キャリビアンベイは様々なボーナスとプロモーションを提供します。例えば、新規会員には入会時に100%ベッティングボーナスが与えられます。また、毎週様々なイベントとプロモーションが行われます。<以下省略> |
캐리비안베이는 용인에ある遊園地です。キャリビアンベイにはウォーターパークと遊園地があります。そのため、夏には水遊びができ、冬にはスノーボードができる四季を通じて楽しめる場所です。 キャリビアンベイを利用するには、まずホームページで入場券を購入する必要があります。また、キャリビアンベイでは、1年間自由に利用できる年間会員券も販売されています。年間会員券は大人と子供の両方が購入できます。<以下省略> |
베트남 쌀국수는韓国の국밥と似た料理です。ベトナムの米麺には米、豚肉、卵、玉葱、ニンニク、生姜、唐辛子などが入っています。 1. 米を洗って水に浸けておきます。 2. 豚肉を細かく切り、玉葱、ニンニク、生姜、唐辛子を刻みます。 3. フライパンに油を入れ、豚肉を炒めてから玉葱、ニンニク、生姜、唐辛子を入れます。 4. 卵を溶いて入れ、醤油を入れて炒めます。 5. 米を水に浸して入れ、沸騰したら塩と胡椒を入れます。 6. 米麺が食べられる状態になったら取り出します。 7. 米麺の上に豚肉と卵を載せて食べます。 Vietnamese rice noodles are similar to Korean rice porridge. Vietnamese rice noodles contain rice, pork, eggs, onions, garlic, ginger and chili peppers.<以下省略> |
베트남 쌀국수는一般的に薄く切った米粉で作られた麺を使用します。麺は熱い水で茹でてから冷水で洗います。麺が茹で上がったら、スープと野菜を入れて沸騰させます。スープを作るときは、鶏肉、牛肉、豚肉など様々な材料を使うことができます。野菜には、ニンジン、玉葱、ネギなどを使うことができます。<以下省略> |
한국의 전통の상인한복と日本の伝統の衣裳であるヨロカミは、どちらも5大陸の文化を受け入れ、それぞれ異なる地域の特徴を反映した衣裳を持っています。これらの衣裳の特徴は、それぞれの国で発展してきた歴史と文化に基づいています。一方、韓国の韓服と日本のヨロカミは似た形をしていますが、その意味は異なります。韓服は韓国人のアイデンティティを表し、ヨロカミは日本人のアイデンティティを表します。したがって、これら2つの衣裳は、異なる文化的背景を持つ人々のアイデンティティ表現に使用されます。 The traditional costumes of Korea and Japan are hanbok and yorokami respectively. Both have been influenced by the cultures of other countries and reflect the characteristics of their respective regions. The distinctive features of these costumes are based on the history and culture of each country. However, although hanbok and yorokami share similar forms, they have different meanings. Hanbok represents Korean identity while yorokami represents Japanese identity. <以下省略> |
한국의 전통の상인韓服は韓国の文化を代表するシンボルです。しかし、最近では韓服を着る人が徐々に減っています。これにはいくつかの理由がありますが、その1つは韓服が不便だからでしょう。韓服は一般的な服よりも多くの部分を覆う必要があり、動きにくいです。また、韓服は洗濯が難しく、管理も容易ではありません。 しかし、韓服は単に不便で管理が難しい服ではありません。韓服は韓国人の歴史と文化を持った貴重な文化遺産です。韓服は韓国の伝統と美を表現する重要な手段であり、韓国のアイデンティティを表すシンボルです。したがって、私たちは韓服を保存し、受け継がなければなりません。<以下省略> |
引用指示
Ko-Llama3-Luxia-8B
@article{kollama3luxiamodelcard,
title={Ko Llama 3 Luxia Model Card},
author={AILabs@Saltux},
year={2024},
url={https://huggingface.co/saltlux/Ko-Llama3-Luxia-8B/blob/main/README.md}
}
オリジナルのLlama-3
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
📄 ライセンス
Llama3ライセンス https://llama.meta.com/llama3/license



