
Model Overview
Model Features
Model Capabilities
Use Cases
๐ Ko-Llama3-Luxia-8B
The Ko-Llama3-Luxia-8B model, trained and released by the Language Model Team of Saltlux AI Labs, is a model specialized for the Korean language based on the Llama-3-8B model released by Meta. It offers high - quality text generation capabilities for Korean language tasks.
โจ Features
- Korean Specialization: The Ko-Llama3-Luxia-8B model is specialized for the Korean language, leveraging about 100GB of carefully selected Korean training data from over 1TB of in - house data for pre - training.
- Optimized Tokenizer: The publicly available Llama - 3 Tokenizer has been extended for Korean and used in pre - training, improving tokenization results for Korean text.
- Based on Meta Llama - 3: Built upon the Meta Llama 3 family of large language models, which are optimized for dialogue use cases and perform well on common industry benchmarks.
๐ Documentation
Model Details
The Ko-Llama3-Luxia-8B model, trained and released by the Language Model Team of Saltlux AI Labs, is a model specially tailored for the Korean language based on the Llama - 3 - 8B model released by Meta.
Approximately 100GB of data was selected from over 1TB of in - house Korean training data for pre - training. Additionally, the publicly available Llama - 3 Tokenizer was extended for Korean and used in pre - training.
- Meta Llama - 3: Meta developed and released the Meta Llama 3 family of large language models (LLMs), a collection of pretrained and instruction - tuned generative text models in 8 and 70B sizes. The Llama 3 instruction - tuned models are optimized for dialogue use cases and outperform many of the available open - source chat models on common industry benchmarks. Further, in developing these models, great care was taken to optimize helpfulness and safety.
- License: Llama3 License https://llama.meta.com/llama3/license
Intended Use
The Ko - Llama3 - Luxia - 8B model is developed for research purposes and can be freely trained and utilized for various natural language generation tasks.
Training Details
The pre - training data for Korean specialization was a corpus of about 100GB (as of ~2023), consisting of domains such as news, law, patents, medicine, history, society, culture, and dialogue (both written and spoken) held by Saltlux.
- The currently provided model is trained for 1 Epoch.
Use Device
Pre - training was carried out using 8 NVIDIA H100 80GB devices.
Training Hyperparameters
Property | Details |
---|---|
Model | Ko - Llama3 - Luxia - 8B |
Params | 8B |
Context length | 8k |
GQA | yes |
Learning rate | 1e - 5 |
Batch | 128 |
Precision | bf16 |
Tokenizer
To specialize the Llama - 3 - Tokenizer for Korean, 17,536 Korean tokens were added and used.
Property | Details |
---|---|
Model | Llama - 3 |
Vocab Size | 128,256 |
Model | Ko - Llama3 - Luxia - 8B |
Vocab Size | 145,792 |
Tokenizer Result
Korean Input Comparison
Input | Llama - 3 | Ko - Llama3 - Luxia - 8B |
---|---|---|
์์ฆ ๋ ์จ๊ฐ ๋๋ฌด ์ค๋ฝ๊ฐ๋ฝํด์ ์์ง๋ ๊ฒจ์ธ์ท์ ๋ชป์น์ ์ด์.. | ['์', '์ฆ', ' ๋ ', '์จ', '๊ฐ', ' ๋๋ฌด', ' ์ค', '๋ฝ', '๊ฐ', '๋ฝ', 'ํด์', ' ์์ง', '๋', ' ๊ฒจ', '์ธ', '๏ฟฝ', '๏ฟฝ', '์', ' ๋ชป', '์น', '์ ', '์ด์', '..'] | ['์์ฆ', ' ๋ ์จ', '๊ฐ', ' ๋๋ฌด', ' ์ค๋ฝ', '๊ฐ๋ฝ', 'ํด์', ' ์์ง', '๋', ' ๊ฒจ์ธ', '์ท', '์', ' ๋ชป', '์น', '์ ', '์ด์', '..'] |
๋ง์๋ ๋ฐฅ์ ๋์ จ์ต๋๊น? ๋ง์ด ๊ถ๊ธํ๋ค์. | ['๋ง', '์๋', ' ๏ฟฝ', '๏ฟฝ', '์', ' ๋', '์ จ', '์ต', '๋๊น', '?', ' ๋ง', '์ด', ' ๊ถ๊ธ', 'ํ', '๋ค์', '.'] | ['๋ง', '์๋', ' ๋ฐฅ', '์', ' ๋์ จ', '์ต', '๋๊น', '?', ' ๋ง', '์ด', ' ๊ถ๊ธ', 'ํ', '๋ค์', '.'] |
๋๋ฒ์๋ถํฐ ํ๊ธ์ฌ ํ๋ก๊น์ง ์ํ๋ ํ๋ก๋ฅผ ์ฐพ๋ ๊ฐ์ฅ ๋น ๋ฅธ ๋ฐฉ๋ฒ - ์๋ฉด ๊ฒ์, ์์ฒญ ํ๋ก, ์ ์ฌ ํ๋ก, AI ์ถ์ฒ, ํ๋ก ๋ฐ ๋ฒ๋ น ๊ฒ์. | ['๋', '๋ฒ', '์', '๋ถํฐ', ' ํ', '๊ธ', '์ฌ', ' ํ', '๋ก', '๊น์ง', ' ์', 'ํ๋', ' ํ', '๋ก', '๋ฅผ', ' ์ฐพ', '๋', ' ๊ฐ์ฅ', ' ๋น ', '๋ฅธ', ' ๋ฐฉ๋ฒ', ' -', ' ์', '๋ฉด', ' ๊ฒ์', ',', ' ์์ฒญ', ' ํ', '๋ก', ',', ' ์ ', '์ฌ', ' ํ', '๋ก', ',', ' AI', ' ์ถ์ฒ', ',', ' ํ', '๋ก', ' ๋ฐ', ' ๋ฒ', '๋ น', ' ๊ฒ์', '.'] | ['๋', '๋ฒ', '์', '๋ถํฐ', ' ํ', '๊ธ', '์ฌ', ' ํ๋ก', '๊น์ง', ' ์', 'ํ๋', ' ํ๋ก', '๋ฅผ', ' ์ฐพ', '๋', ' ๊ฐ์ฅ', ' ๋น ๋ฅธ', ' ๋ฐฉ๋ฒ', ' -', ' ์๋ฉด', ' ๊ฒ์', ',', ' ์์ฒญ', ' ํ๋ก', ',', ' ์ ์ฌ', ' ํ๋ก', ',', ' AI', ' ์ถ์ฒ', ',', ' ํ๋ก', ' ๋ฐ', ' ๋ฒ๋ น', ' ๊ฒ์', '.'] |
๋ณธ ๋ฐ๋ช ์ ๊ธ์ํ์ ๋ค์ ๋ถ๋ถ์ ์์นญ์์ผ ํน์ ๋ฌด๋ฌ๋ชจ์์ ํ์ฑํ๋ ๊ฑด์ถ์ฉ ๊ธ์์ฌ ์ฅ์ํ์ผ๋ก ์ด๋ฃจ์ด์ง ๊ฒ์ ํน์ง์ด ์๋ค. | ['๋ณธ', ' ๋ฐ', '๋ช ', '์', ' ๊ธ', '์', 'ํ', '์', ' ๋ค', '์', ' ๋ถ๋ถ', '์', ' ์', '์นญ', '์', '์ผ', ' ํน', '์ ', ' ๋ฌด', '๏ฟฝ', '๏ฟฝ', '๋ชจ', '์', '์', ' ํ', '์ฑ', 'ํ๋', ' ๊ฑด', '์ถ', '์ฉ', ' ๊ธ', '์', '์ฌ', ' ์ฅ', '์', 'ํ', '์ผ๋ก', ' ์ด๋ฃจ', '์ด์ง', ' ๊ฒ', '์', ' ํน', '์ง', '์ด', ' ์๋ค', '.'] | ['๋ณธ', ' ๋ฐ๋ช ', '์', ' ๊ธ์', 'ํ', '์', ' ๋ค์', ' ๋ถ๋ถ', '์', ' ์์นญ', '์', '์ผ', ' ํน์ ', ' ๋ฌด๋ฌ', '๋ชจ', '์', '์', ' ํ์ฑ', 'ํ๋', ' ๊ฑด์ถ', '์ฉ', ' ๊ธ์', '์ฌ', ' ์ฅ์', 'ํ', '์ผ๋ก', ' ์ด๋ฃจ์ด์ง', ' ๊ฒ', '์', ' ํน์ง', '์ด', ' ์๋ค', '.'] |
๊ณจ๋ค๊ณต์ฆ์ ์ ์๊ธฐ๋๊ฑฐ์์? ๊ทธ๋ฆฌ๊ณ ์น๋ฃํ๋ ค๋ฉด ์ด๋ป๊ฒํด์ผํ์ฃ ? | ['๊ณจ', '๋ค', '๊ณต', '์ฆ', '์', ' ์', ' ์', '๊ธฐ๋', '๊ฑฐ', '์', '์', '?', ' ๊ทธ๋ฆฌ๊ณ ', ' ์น', '๋ฃ', 'ํ๋ ค', '๋ฉด', ' ์ด๋ป๊ฒ', 'ํด์ผ', 'ํ', '์ฃ ', '?'] | ['๊ณจ', '๋ค', '๊ณต์ฆ', '์', ' ์', ' ์', '๊ธฐ๋', '๊ฑฐ', '์', '์', '?', ' ๊ทธ๋ฆฌ๊ณ ', ' ์น๋ฃ', 'ํ๋ ค', '๋ฉด', ' ์ด๋ป๊ฒ', 'ํด์ผ', 'ํ', '์ฃ ', '?'] |
English Input Comparison
Input | Llama - 3 | Ko - Llama3 - Luxia - 8B |
---|---|---|
Korean cuisine, hanguk yori, or hansik, has evolved through centuries of social and political change. | ['K', 'orean', ' cuisine', ',', ' h', 'angu', 'k', ' y', 'ori', ',', ' or', ' hans', 'ik', ',', ' has', ' evolved', ' through', ' centuries', ' of', ' social', ' and', ' political', ' change', '.'] | ['K', 'orean', ' cuisine', ',', ' h', 'angu', 'k', ' y', 'ori', ',', ' or', ' hans', 'ik', ',', ' has', ' evolved', ' through', ' centuries', ' of', ' social', ' and', ' political', ' change', '.'] |
Son Heung - min is a South Korean professional footballer who plays as a forward for and captains both Premier League club Tottenham Hotspur and the South Korea national team. | ['Son', ' He', 'ung', '-min', ' is', ' a', ' South', ' Korean', ' professional', ' football', 'er', ' who', ' plays', ' as', ' a', ' forward', ' for', ' and', ' captains', ' both', ' Premier', ' League', ' club', ' Tottenham', ' Hot', 'sp', 'ur', ' and', ' the', ' South', ' Korea', ' national', ' team', '.'] | ['Son', ' He', 'ung', '-min', ' is', ' a', ' South', ' Korean', ' professional', ' football', 'er', ' who', ' plays', ' as', ' a', ' forward', ' for', ' and', ' captains', ' both', ' Premier', ' League', ' club', ' Tottenham', ' Hot', 'sp', 'ur', ' and', ' the', ' South', ' Korea', ' national', ' team', '.'] |
Inference Result
Llama - 3 | Ko - Llama3 - Luxia - 8B |
---|---|
์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ฉ์ธ์ ์์นํ ์บ๋ฆฌ๋น์ ๋ฒ ์ด์ ๊ณต์ ์จ๋ผ์ธ ์นด์ง๋ ธ์ ๋๋ค. ์บ๋ฆฌ๋น์ ๋ฒ ์ด๋ 1994๋ ๋ถํฐ ์ด์๋์ด ์์ผ๋ฉฐ, 2005๋ ์ ์จ๋ผ์ธ์ผ๋ก ์คํํ์ต๋๋ค. ์ด ์ฌ์ดํธ๋ ์๊ตญ์์ ์ด์๋๋ ๋ผ์ด์ผ์ค๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์๊ตญ ์ ๋ถ๊ฐ ์น์ธํ๊ณ ์์ต๋๋ค.\n์บ๋ฆฌ๋น์ ๋ฒ ์ด๋ ๋ค์ํ ๊ฒ์์ ์ ๊ณตํฉ๋๋ค. ์ฌ๋กฏ ๋จธ์ , ๋ธ๋์ญ, ๋ฃฐ๋ , ํฌ์ปค, ๋ฐ์นด๋ผ ๋ฑ์ด ์์ต๋๋ค. ๋ํ, ์บ๋ฆฌ๋น์ ๋ฒ ์ด๋ ๋ค์ํ ๋ณด๋์ค์ ํ๋ก๋ชจ์ ์ ์ ๊ณตํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ ๊ท ํ์์๊ฒ๋ ๊ฐ์ ์ 100% ๋ฐฐํ ๋ณด๋์ค๊ฐ ์ฃผ์ด์ง๋๋ค. ๋ํ, ๋งค์ฃผ๋ง๋ค ๋ค์ํ ์ด๋ฒคํธ์ ํ๋ก๋ชจ์ ์ด ์งํ๋ฉ๋๋ค.<์ดํ ์๋ต> | ์บ๋ฆฌ๋น์๋ฒ ์ด๋ ์ฉ์ธ์ ์๋ ๋์ด๊ณต์์ธ๋ฐ์. ์บ๋ฆฌ๋น์๋ฒ ์ด์ ๊ฒฝ์ฐ์๋ ์ํฐํํฌ์ ๋์ด๊ณต์์ด ๊ฐ์ด ์์ต๋๋ค. ๊ทธ๋์ ์ฌ๋ฆ์๋ ๋ฌผ๋์ด๋ฅผ ์ฆ๊ธฐ๊ณ ๊ฒจ์ธ์๋ ๋์ฐ๋งค๋ฅผ ํ ์ ์์ด์ ์ฌ๊ณ์ ๋ด๋ด ์ฆ๊ธธ ์ ์๋ ๊ณณ์ด์ฃ .\n์บ๋ฆฌ๋น์๋ฒ ์ด๋ฅผ ์ด์ฉํ๋ ค๋ฉด ์ฐ์ ํํ์ด์ง์์ ์ ์ฅ๊ถ์ ๊ตฌ๋งคํด์ผ ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์บ๋ฆฌ๋น์๋ฒ ์ด์ ๊ฒฝ์ฐ์๋ 1๋ ๋์ ์์ ๋กญ๊ฒ ์ด์ฉํ ์ ์๋ ์ฐ๊ฐํ์๊ถ๋ ํ๋งคํ๋๋ฐ์. ์ฐ๊ฐํ์๊ถ์ ์ฑ์ธ๊ณผ ์ด๋ฆฐ์ด ๋ชจ๋ ๊ตฌ๋งค๊ฐ ๊ฐ๋ฅํฉ๋๋ค.<์ดํ ์๋ต> |
๋ฒ ํธ๋จ ์๊ตญ์๋ ํ๊ตญ์ ๊ตญ๋ฐฅ๊ณผ ๋น์ทํ ์์์ ๋๋ค. ๋ฒ ํธ๋จ ์๊ตญ์์๋ ์, ๋ผ์ง๊ณ ๊ธฐ, ๊ณ๋, ์ํ, ๋ง๋, ์๊ฐ, ๊ณ ์ถ ๋ฑ์ด ๋ค์ด๊ฐ๋๋ค.\n1. ์์ ์ป์ด ๋ฌผ์ ๋ด๊ฐ ๋ก๋๋ค.\n2. ๋ผ์ง๊ณ ๊ธฐ๋ฅผ ์๊ฒ ์ฐ๊ณ , ์ํ์ ๋ง๋, ์๊ฐ, ๊ณ ์ถ๋ฅผ ๋ค์ ธ์ค๋๋ค.\n3. ํฌ์ ๊ธฐ๋ฆ์ ๋๋ฅด๊ณ ๋ผ์ง๊ณ ๊ธฐ๋ฅผ ๋ณถ๋ค๊ฐ ์ํ์ ๋ง๋, ์๊ฐ, ๊ณ ์ถ๋ฅผ ๋ฃ์ต๋๋ค.\n4. ๊ณ๋์ ํ์ด์ ๋ฃ๊ณ , ๊ฐ์ฅ์ ๋ฃ์ด ๋ณถ์์ค๋๋ค.\n5. ์์ ๋ฌผ์ ๋ถ๋ ค์ ๋ฃ๊ณ , ๋์ผ๋ฉด ์๊ธ๊ณผ ํ์ถ๋ฅผ ๋ฃ์ด์ค๋๋ค.\n6. ์๊ตญ์๋ฅผ ๋จน๊ธฐ ์ข์ ์ํ๊ฐ ๋๋ฉด ๊บผ๋ด ์ค๋๋ค.\n7. ์๊ตญ์์ ์์ ๋ผ์ง๊ณ ๊ธฐ์ ๊ณ๋์ ์น์ด ๋จน์ต๋๋ค.\nVietnamese rice noodles are similar to Korean rice porridge. Vietnamese rice noodles contain rice, pork, eggs, onions, garlic, ginger and chili peppers.<์ดํ ์๋ต> | ๋ฒ ํธ๋จ ์๊ตญ์๋ ์ผ๋ฐ์ ์ผ๋ก ์๊ฒ ์ฌ ์๊ฐ๋ฃจ๋ก ๋ง๋ ๋ฉด์ ์ฌ์ฉํฉ๋๋ค. ๋ฉด์ ๋จ๊ฑฐ์ด ๋ฌผ์ ์ถ์์ ์ฐฌ๋ฌผ์ ํน๊ตฌ์ด๋ ๋๋ค. ๋ฉด์ด ์ถ์์ง๋ฉด ์ก์์ ์ผ์ฑ๋ฅผ ๋ฃ๊ณ ๋์ ๋๋ค. ์ก์๋ฅผ ๋ง๋ค ๋๋ ๋ญ๊ณ ๊ธฐ, ์๊ณ ๊ธฐ, ๋ผ์ง๊ณ ๊ธฐ ๋ฑ ๋ค์ํ ์ฌ๋ฃ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ผ์ฑ๋ก๋ ๋น๊ทผ, ์ํ, ํ ๋ฑ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.<์ดํ ์๋ต> |
ํ๊ตญ์ ์ ํต์์์ธ ํ๋ณต๊ณผ ์ผ๋ณธ์ ์ ํต์์์ธ ์๋ก์นด๋ฏธ๋ ๋ชจ๋ 5๋๋ฅ์ ๋ฌธํ๋ฅผ ์์ฉํ๊ณ , ๊ฐ๊ธฐ ๋ค๋ฅธ ์ง์ญ์ ํน์ง์ ๋ฐ์ํ ์์์ ๊ฐ์ถ๊ณ ์๋ค. ์ด๋ฌํ ์์์ ํน์ง์ ๊ฐ๊ฐ์ ๊ตญ๊ฐ์์ ๋ฐ์ ํด ์จ ์ญ์ฌ์ ๋ฌธํ์ ๊ธฐ์ดํ๋ค. ํํธ, ํ๊ตญ์ ํ๋ณต๊ณผ ์ผ๋ณธ์ ์๋ก์นด๋ฏธ๋ ์๋ก ๋น์ทํ ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ๊ทธ ์๋ฏธ๋ ๋ค๋ฅด๋ค. ํ๋ณต์ ํ๊ตญ์ธ์ ์ ์ฒด์ฑ์ ๋ํ๋ด๋ฉฐ, ์๋ก์นด๋ฏธ๋ ์ผ๋ณธ์ธ์ ์ ์ฒด์ฑ์ ๋ํ๋ธ๋ค. ๋ฐ๋ผ์ ์ด ๋ ๊ฐ์ง ์์์ ์๋ก ๋ค๋ฅธ ๋ฌธํ์ ๋ฐฐ๊ฒฝ์ ๊ฐ์ง ์ฌ๋๋ค์ ์ ์ฒด์ฑ ํํ์ ์ฌ์ฉ๋๋ค.\nThe traditional costumes of Korea and Japan are hanbok and yorokami respectively. Both have been influenced by the cultures of other countries and reflect the characteristics of their respective regions. The distinctive features of these costumes are based on the history and culture of each country. However, although hanbok and yorokami share similar forms, they have different meanings. Hanbok represents Korean identity while yorokami represents Japanese identity. <์ดํ ์๋ต> | ํ๊ตญ์ ์ ํต์์์ธ ํ๋ณต์ ํ๊ตญ์ ๋ฌธํ๋ฅผ ๋ํํ๋ ์์ง๋ฌผ์ด๋ค. ํ์ง๋ง ์ต๊ทผ์๋ ํ๋ณต์ ์ ๋ ์ฌ๋๋ค์ด ์ ์ ์ค์ด๋ค๊ณ ์๋ค. ์ด๋ ์ฌ๋ฌ ๊ฐ์ง ์ด์ ๊ฐ ์๊ฒ ์ง๋ง, ๊ทธ ์ค ํ๋๋ ํ๋ณต์ด ๋ถํธํ๊ธฐ ๋๋ฌธ์ผ ๊ฒ์ด๋ค. ํ๋ณต์ ์ผ๋ฐ์ ์ธ ์ท๋ณด๋ค ๋ ๋ง์ ๋ถ๋ถ์ ๋ฎ์ด์ผ ํ๊ณ , ์์ง์ด๊ธฐ ์ด๋ ต๋ค. ๋ํ, ํ๋ณต์ ์ธํํ๊ธฐ๊ฐ ์ด๋ ต๊ณ , ๊ด๋ฆฌํ๊ธฐ๋ ์ฝ์ง ์๋ค.\nํ์ง๋ง ํ๋ณต์ ๋จ์ํ ๋ถํธํ๊ณ ๊ด๋ฆฌํ๊ธฐ ์ด๋ ค์ด ์ท์ด ์๋๋ค. ํ๋ณต์ ํ๊ตญ์ธ์ ์ญ์ฌ์ ๋ฌธํ๋ฅผ ๋ด๊ณ ์๋ ์์คํ ๋ฌธํ์ ์ฐ์ด๋ค. ํ๋ณต์ ํ๊ตญ์ ์ ํต๊ณผ ๋ฏธ๋ฅผ ํํํ๋ ์ค์ํ ์๋จ์ด๋ฉฐ, ํ๊ตญ์ ์ ์ฒด์ฑ์ ๋ํ๋ด๋ ์์ง๋ฌผ์ด๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ํ๋ณต์ ๋ณด์กดํ๊ณ ๊ณ์นํด์ผ ํ๋ค.<์ดํ ์๋ต> |
๐ป Usage Examples
Basic Usage
import transformers
import torch
model_id = "saltlux/Ko-Llama3-Luxia-8B"
pipeline = transformers.pipeline(
"text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
)
pipeline("<|begin_of_text|>์๋
ํ์ธ์. ์ํธ๋ฃฉ์ค AI Labs ์
๋๋ค.")
๐ License
This model is under the Llama3 License. You can find more details here: https://llama.meta.com/llama3/license
๐ Citation instructions
Ko-Llama3-Luxia-8B
@article{kollama3luxiamodelcard,
title={Ko Llama 3 Luxia Model Card},
author={AILabs@Saltux},
year={2024},
url={https://huggingface.co/saltlux/Ko-Llama3-Luxia-8B/blob/main/README.md}
}
Original Llama-3
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}

