Llama-3-Open-Ko-8B開源韓語語言模型 - 支持韓英雙語文本生成

首頁

Llama 3 Open Ko 8B

由beomi開發

基於Llama-3-8B繼續預訓練的韓語語言模型，使用公開可用的60GB+去重文本訓練，支持韓語和英語文本生成。

大型語言模型

Transformers

支持多種語言開源協議:其他 #韓語優化 #多語言生成 #大語言模型

下載量 6,729

發布時間 : 4/22/2024

模型概述

Llama-3-Open-Ko-8B是基於Llama-3-8B架構繼續預訓練的韓語優化模型，專注於韓語文本生成任務，同時保留英語能力。

模型特點

韓語優化

專門針對韓語進行繼續預訓練，使用17.7B+韓語token優化模型表現

多語言支持

基於Llama-3架構，同時支持英語和韓語處理

公開數據集訓練

完全使用公開可用的60GB+去重文本數據進行訓練

長上下文處理

支持8k tokens的上下文長度

模型能力

韓語文本生成

英語文本生成

代碼生成

自然語言理解

使用案例

內容創作

韓語文章生成

生成符合韓語表達習慣的文章和內容

教育

語言學習輔助

幫助韓語學習者生成練習材料和示例

🚀 Llama-3-Open-Ko-8B模型

Llama-3-Open-Ko-8B是一款基於Transformer架構的語言模型，它在Llama-3-8B的基礎上繼續預訓練，使用了公開可用的資源進行訓練。該模型在多種自然語言處理任務中表現出色，可用於商業和研究領域。

🚀 快速開始

目前使用方法待補充（TBD）。

✨ 主要特性

公開資源訓練：該模型完全使用公開可用的資源進行訓練，使用了超過60GB的去重文本。
新分詞器：採用新的Llama-3分詞器，預訓練使用了超過177億個標記，略多於韓語分詞器（Llama-2-Ko分詞器）。
多語言支持：支持英語和韓語，適用於多種自然語言處理任務。
優化架構：Llama 3採用了優化的Transformer架構，是一種自迴歸語言模型。

📚 詳細文檔

模型詳情

模型開發者：Junbum Lee (Beomi)
模型變體：Llama-3-Open-Ko只有一種規格，即8B。
輸入：模型僅接受文本輸入。
輸出：模型僅生成文本和代碼。
模型架構：Llama 3是一種自迴歸語言模型，使用了優化的Transformer架構。

屬性	詳情
模型類型	Llama-3-Open-Ko-8B是基於Llama-3-8B繼續預訓練的語言模型
訓練數據	與Open-Solar-Ko Dataset相同，使用超過60GB的去重文本，預訓練使用超過177億個標記
參數數量	8B
上下文長度	8k
GQA	是
標記數量	17.7B+
知識截止日期	2023年6月

你可以在這裡找到數據集列表。

模型發佈日期：2024年4月24日
狀態：這是一個基於離線數據集訓練的靜態模型。
許可證：Llama3許可證：https://llama.meta.com/llama3/license

預期用途

預期用例：Llama 3旨在用於英語的商業和研究用途。經過指令微調的模型適用於類似助手的聊天場景，而預訓練模型可用於各種自然語言生成任務。
超出範圍：禁止以任何違反適用法律法規（包括貿易合規法律）的方式使用。禁止以《可接受使用政策》和《Llama 3社區許可證》禁止的任何其他方式使用。禁止在英語以外的語言中使用。

⚠️ 重要提示

開發者可以根據《Llama 3社區許可證》和《可接受使用政策》的規定，對Llama 3模型進行微調以支持英語以外的語言。

責任與安全

我們相信，開放的人工智能方法能夠帶來更好、更安全的產品，促進更快的創新，並開拓更大的整體市場。我們致力於負責任地開發人工智能，並採取了一系列措施來限制濫用和危害，支持開源社區。

基礎模型是一種具有廣泛能力的技術，旨在用於各種不同的應用場景。由於不同應用場景的性質不同，這些模型並非旨在開箱即用地滿足所有開發者對所有用例的安全級別偏好。

相反，負責任地部署大語言模型應用需要在應用開發的整個過程中實施一系列安全最佳實踐，從模型預訓練、微調，到部署包含保障措施的系統，以根據具體用例和受眾的安全需求進行定製。

作為Llama 3發佈的一部分，我們更新了《負責任使用指南》，概述了開發者為其應用實施模型和系統級安全的步驟和最佳實踐。我們還提供了一系列資源，包括Meta Llama Guard 2和Code Shield保障措施。這些工具已被證明能夠在保持高度實用性的同時，大幅降低大語言模型系統的殘餘風險。我們鼓勵開發者根據自身需求調整和部署這些保障措施，並提供了一個參考實現供你參考。

負責任的發佈

除了上述負責任使用的考慮因素外，我們還遵循了嚴格的流程，在做出發佈決定之前，採取了額外的措施來防範濫用和重大風險。

濫用問題：如果你訪問或使用Llama 3，即表示你同意《可接受使用政策》。該政策的最新版本可在https://llama.meta.com/llama3/use-policy/找到。

倫理考量與侷限性

Llama 3的核心價值觀是開放性、包容性和實用性。它旨在為所有人服務，並適用於廣泛的用例。因此，它的設計旨在讓不同背景、經驗和觀點的人都能使用。Llama 3尊重用戶及其需求，不插入不必要的判斷或規範性內容，同時認識到即使某些內容在某些情況下可能看起來有問題，但在其他情況下也可能有價值。它尊重所有用戶的尊嚴和自主權，特別是在推動創新和進步的自由思想和表達價值觀方面。

然而，Llama 3是一項新技術，與任何新技術一樣，其使用存在風險。到目前為止進行的測試都是用英語進行的，並且沒有涵蓋，也不可能涵蓋所有場景。出於這些原因，與所有大語言模型一樣，Llama 3的潛在輸出無法提前預測，並且在某些情況下，模型可能會對用戶提示產生不準確、有偏見或其他令人反感的響應。因此，在部署Llama 3模型的任何應用之前，開發者應該針對其特定應用進行安全測試和調整。如《負責任使用指南》所述，我們建議將Purple Llama解決方案納入你的工作流程，特別是Llama Guard，它提供了一個基礎模型來過濾輸入和輸出提示，在模型級安全的基礎上增加系統級安全。

請參閱《負責任使用指南》。

基準測試分數

以下是模型在一些基準測試中的表現：

任務	版本	過濾器	n-shot	指標	值		標準誤差
haerae	N/A	none	5	acc	0.6801	±	0.0138
		none	5	acc_norm	0.6801	±	0.0138
- haerae_general_knowledge	1	none	5	acc	0.4375	±	0.0375
		none	5	acc_norm	0.4375	±	0.0375
- haerae_history	1	none	5	acc	0.7340	±	0.0323
		none	5	acc_norm	0.7340	±	0.0323
- haerae_loan_word	1	none	5	acc	0.7870	±	0.0316
		none	5	acc_norm	0.7870	±	0.0316
- haerae_rare_word	1	none	5	acc	0.7012	±	0.0228
		none	5	acc_norm	0.7012	±	0.0228
- haerae_standard_nomenclature	1	none	5	acc	0.7190	±	0.0365
		none	5	acc_norm	0.7190	±	0.0365
kmmlu_direct	N/A	none	5	exact_match	0.4054	±	0.0026
- kmmlu_direct_accounting	2	none	5	exact_match	0.3600	±	0.0482
- kmmlu_direct_agricultural_sciences	2	none	5	exact_match	0.3130	±	0.0147
- kmmlu_direct_aviation_engineering_and_maintenance	2	none	5	exact_match	0.3690	±	0.0153
- kmmlu_direct_biology	2	none	5	exact_match	0.3330	±	0.0149
- kmmlu_direct_chemical_engineering	2	none	5	exact_match	0.4190	±	0.0156
- kmmlu_direct_chemistry	2	none	5	exact_match	0.3833	±	0.0199
- kmmlu_direct_civil_engineering	2	none	5	exact_match	0.3870	±	0.0154
- kmmlu_direct_computer_science	2	none	5	exact_match	0.6340	±	0.0152
- kmmlu_direct_construction	2	none	5	exact_match	0.3340	±	0.0149
- kmmlu_direct_criminal_law	2	none	5	exact_match	0.2850	±	0.0320
- kmmlu_direct_ecology	2	none	5	exact_match	0.4210	±	0.0156
- kmmlu_direct_economics	2	none	5	exact_match	0.4077	±	0.0433
- kmmlu_direct_education	2	none	5	exact_match	0.5000	±	0.0503
- kmmlu_direct_electrical_engineering	2	none	5	exact_match	0.3620	±	0.0152
- kmmlu_direct_electronics_engineering	2	none	5	exact_match	0.4790	±	0.0158
- kmmlu_direct_energy_management	2	none	5	exact_match	0.3110	±	0.0146
- kmmlu_direct_environmental_science	2	none	5	exact_match	0.3210	±	0.0148
- kmmlu_direct_fashion	2	none	5	exact_match	0.4190	±	0.0156
- kmmlu_direct_food_processing	2	none	5	exact_match	0.3600	±	0.0152
- kmmlu_direct_gas_technology_and_engineering	2	none	5	exact_match	0.3320	±	0.0149
- kmmlu_direct_geomatics	2	none	5	exact_match	0.3640	±	0.0152
- kmmlu_direct_health	2	none	5	exact_match	0.5100	±	0.0502
- kmmlu_direct_industrial_engineer	2	none	5	exact_match	0.3970	±	0.0155
- kmmlu_direct_information_technology	2	none	5	exact_match	0.5720	±	0.0157
- kmmlu_direct_interior_architecture_and_design	2	none	5	exact_match	0.4740	±	0.0158
- kmmlu_direct_korean_history	2	none	5	exact_match	0.2700	±	0.0446
- kmmlu_direct_law	2	none	5	exact_match	0.3990	±	0.0155
- kmmlu_direct_machine_design_and_manufacturing	2	none	5	exact_match	0.4080	±	0.0155
- kmmlu_direct_management	2	none	5	exact_match	0.4660	±	0.0158
- kmmlu_direct_maritime_engineering	2	none	5	exact_match	0.4417	±	0.0203
- kmmlu_direct_marketing	2	none	5	exact_match	0.6720	±	0.0149
- kmmlu_direct_materials_engineering	2	none	5	exact_match	0.4130	±	0.0156
- kmmlu_direct_math	2	none	5	exact_match	0.2567	±	0.0253
- kmmlu_direct_mechanical_engineering	2	none	5	exact_match	0.3800	±	0.0154
- kmmlu_direct_nondestructive_testing	2	none	5	exact_match	0.3890	±	0.0154
- kmmlu_direct_patent	2	none	5	exact_match	0.2700	±	0.0446
- kmmlu_direct_political_science_and_sociology	2	none	5	exact_match	0.4433	±	0.0287
- kmmlu_direct_psychology	2	none	5	exact_match	0.3620	±	0.0152
- kmmlu_direct_public_safety	2	none	5	exact_match	0.3200	±	0.0148
- kmmlu_direct_railway_and_automotive_engineering	2	none	5	exact_match	0.3200	±	0.0148
- kmmlu_direct_real_estate	2	none	5	exact_match	0.3650	±	0.0341
- kmmlu_direct_refrigerating_machinery	2	none	5	exact_match	0.3210	±	0.0148
- kmmlu_direct_social_welfare	2	none	5	exact_match	0.4500	±	0.0157
- kmmlu_direct_taxation	2	none	5	exact_match	0.3550	±	0.0339
- kmmlu_direct_telecommunications_and_wireless_technology	2	none	5	exact_match	0.5490	±	0.0157
kobest_boolq	1	none	5	acc	0.7984	±	0.0107
		none	5	f1	0.7961	±	N/A
kobest_copa	1	none	5	acc	0.8150	±	0.0123
		none	5	f1	0.8148	±	N/A
kobest_hellaswag	1	none	5	acc	0.4800	±	0.0224
		none	5	f1	0.4771	±	N/A
		none	5	acc_norm	0.6120	±	0.0218
kobest_sentineg	1	none	5	acc	0.9597	±	0.0099
		none	5	f1	0.9597	±	N/A

引用說明

如果你使用了該模型，可以按照以下格式進行引用：

Llama-3-Open-Ko

@article{llama3openko,
  title={Llama-3-Open-Ko},
  author={L, Junbum},
  year={2024},
  url={https://huggingface.co/beomi/Llama-3-Open-Ko-8B}
}

原始Llama-3

@article{llama3modelcard,
  title={Llama 3 Model Card},
  author={AI@Meta},
  year={2024},
  url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}