模型简介
模型特点
模型能力
使用案例
🚀 Llama-3-Open-Ko-8B模型
Llama-3-Open-Ko-8B是一款基于Transformer架构的语言模型,它在Llama-3-8B的基础上继续预训练,使用了公开可用的资源进行训练。该模型在多种自然语言处理任务中表现出色,可用于商业和研究领域。
🚀 快速开始
目前使用方法待补充(TBD)。
✨ 主要特性
- 公开资源训练:该模型完全使用公开可用的资源进行训练,使用了超过60GB的去重文本。
- 新分词器:采用新的Llama-3分词器,预训练使用了超过177亿个标记,略多于韩语分词器(Llama-2-Ko分词器)。
- 多语言支持:支持英语和韩语,适用于多种自然语言处理任务。
- 优化架构:Llama 3采用了优化的Transformer架构,是一种自回归语言模型。
📚 详细文档
模型详情
- 模型开发者:Junbum Lee (Beomi)
- 模型变体:Llama-3-Open-Ko只有一种规格,即8B。
- 输入:模型仅接受文本输入。
- 输出:模型仅生成文本和代码。
- 模型架构:Llama 3是一种自回归语言模型,使用了优化的Transformer架构。
属性 | 详情 |
---|---|
模型类型 | Llama-3-Open-Ko-8B是基于Llama-3-8B继续预训练的语言模型 |
训练数据 | 与Open-Solar-Ko Dataset相同,使用超过60GB的去重文本,预训练使用超过177亿个标记 |
参数数量 | 8B |
上下文长度 | 8k |
GQA | 是 |
标记数量 | 17.7B+ |
知识截止日期 | 2023年6月 |
你可以在这里找到数据集列表。
- 模型发布日期:2024年4月24日
- 状态:这是一个基于离线数据集训练的静态模型。
- 许可证:Llama3许可证:https://llama.meta.com/llama3/license
预期用途
- 预期用例:Llama 3旨在用于英语的商业和研究用途。经过指令微调的模型适用于类似助手的聊天场景,而预训练模型可用于各种自然语言生成任务。
- 超出范围:禁止以任何违反适用法律法规(包括贸易合规法律)的方式使用。禁止以《可接受使用政策》和《Llama 3社区许可证》禁止的任何其他方式使用。禁止在英语以外的语言中使用。
⚠️ 重要提示
开发者可以根据《Llama 3社区许可证》和《可接受使用政策》的规定,对Llama 3模型进行微调以支持英语以外的语言。
责任与安全
我们相信,开放的人工智能方法能够带来更好、更安全的产品,促进更快的创新,并开拓更大的整体市场。我们致力于负责任地开发人工智能,并采取了一系列措施来限制滥用和危害,支持开源社区。
基础模型是一种具有广泛能力的技术,旨在用于各种不同的应用场景。由于不同应用场景的性质不同,这些模型并非旨在开箱即用地满足所有开发者对所有用例的安全级别偏好。
相反,负责任地部署大语言模型应用需要在应用开发的整个过程中实施一系列安全最佳实践,从模型预训练、微调,到部署包含保障措施的系统,以根据具体用例和受众的安全需求进行定制。
作为Llama 3发布的一部分,我们更新了《负责任使用指南》,概述了开发者为其应用实施模型和系统级安全的步骤和最佳实践。我们还提供了一系列资源,包括Meta Llama Guard 2和Code Shield保障措施。这些工具已被证明能够在保持高度实用性的同时,大幅降低大语言模型系统的残余风险。我们鼓励开发者根据自身需求调整和部署这些保障措施,并提供了一个参考实现供你参考。
负责任的发布
除了上述负责任使用的考虑因素外,我们还遵循了严格的流程,在做出发布决定之前,采取了额外的措施来防范滥用和重大风险。
滥用问题:如果你访问或使用Llama 3,即表示你同意《可接受使用政策》。该政策的最新版本可在https://llama.meta.com/llama3/use-policy/找到。
伦理考量与局限性
Llama 3的核心价值观是开放性、包容性和实用性。它旨在为所有人服务,并适用于广泛的用例。因此,它的设计旨在让不同背景、经验和观点的人都能使用。Llama 3尊重用户及其需求,不插入不必要的判断或规范性内容,同时认识到即使某些内容在某些情况下可能看起来有问题,但在其他情况下也可能有价值。它尊重所有用户的尊严和自主权,特别是在推动创新和进步的自由思想和表达价值观方面。
然而,Llama 3是一项新技术,与任何新技术一样,其使用存在风险。到目前为止进行的测试都是用英语进行的,并且没有涵盖,也不可能涵盖所有场景。出于这些原因,与所有大语言模型一样,Llama 3的潜在输出无法提前预测,并且在某些情况下,模型可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此,在部署Llama 3模型的任何应用之前,开发者应该针对其特定应用进行安全测试和调整。如《负责任使用指南》所述,我们建议将Purple Llama解决方案纳入你的工作流程,特别是Llama Guard,它提供了一个基础模型来过滤输入和输出提示,在模型级安全的基础上增加系统级安全。
请参阅《负责任使用指南》。
基准测试分数
以下是模型在一些基准测试中的表现:
任务 | 版本 | 过滤器 | n-shot | 指标 | 值 | 标准误差 | |
---|---|---|---|---|---|---|---|
haerae | N/A | none | 5 | acc | 0.6801 | ± | 0.0138 |
none | 5 | acc_norm | 0.6801 | ± | 0.0138 | ||
- haerae_general_knowledge | 1 | none | 5 | acc | 0.4375 | ± | 0.0375 |
none | 5 | acc_norm | 0.4375 | ± | 0.0375 | ||
- haerae_history | 1 | none | 5 | acc | 0.7340 | ± | 0.0323 |
none | 5 | acc_norm | 0.7340 | ± | 0.0323 | ||
- haerae_loan_word | 1 | none | 5 | acc | 0.7870 | ± | 0.0316 |
none | 5 | acc_norm | 0.7870 | ± | 0.0316 | ||
- haerae_rare_word | 1 | none | 5 | acc | 0.7012 | ± | 0.0228 |
none | 5 | acc_norm | 0.7012 | ± | 0.0228 | ||
- haerae_standard_nomenclature | 1 | none | 5 | acc | 0.7190 | ± | 0.0365 |
none | 5 | acc_norm | 0.7190 | ± | 0.0365 | ||
kmmlu_direct | N/A | none | 5 | exact_match | 0.4054 | ± | 0.0026 |
- kmmlu_direct_accounting | 2 | none | 5 | exact_match | 0.3600 | ± | 0.0482 |
- kmmlu_direct_agricultural_sciences | 2 | none | 5 | exact_match | 0.3130 | ± | 0.0147 |
- kmmlu_direct_aviation_engineering_and_maintenance | 2 | none | 5 | exact_match | 0.3690 | ± | 0.0153 |
- kmmlu_direct_biology | 2 | none | 5 | exact_match | 0.3330 | ± | 0.0149 |
- kmmlu_direct_chemical_engineering | 2 | none | 5 | exact_match | 0.4190 | ± | 0.0156 |
- kmmlu_direct_chemistry | 2 | none | 5 | exact_match | 0.3833 | ± | 0.0199 |
- kmmlu_direct_civil_engineering | 2 | none | 5 | exact_match | 0.3870 | ± | 0.0154 |
- kmmlu_direct_computer_science | 2 | none | 5 | exact_match | 0.6340 | ± | 0.0152 |
- kmmlu_direct_construction | 2 | none | 5 | exact_match | 0.3340 | ± | 0.0149 |
- kmmlu_direct_criminal_law | 2 | none | 5 | exact_match | 0.2850 | ± | 0.0320 |
- kmmlu_direct_ecology | 2 | none | 5 | exact_match | 0.4210 | ± | 0.0156 |
- kmmlu_direct_economics | 2 | none | 5 | exact_match | 0.4077 | ± | 0.0433 |
- kmmlu_direct_education | 2 | none | 5 | exact_match | 0.5000 | ± | 0.0503 |
- kmmlu_direct_electrical_engineering | 2 | none | 5 | exact_match | 0.3620 | ± | 0.0152 |
- kmmlu_direct_electronics_engineering | 2 | none | 5 | exact_match | 0.4790 | ± | 0.0158 |
- kmmlu_direct_energy_management | 2 | none | 5 | exact_match | 0.3110 | ± | 0.0146 |
- kmmlu_direct_environmental_science | 2 | none | 5 | exact_match | 0.3210 | ± | 0.0148 |
- kmmlu_direct_fashion | 2 | none | 5 | exact_match | 0.4190 | ± | 0.0156 |
- kmmlu_direct_food_processing | 2 | none | 5 | exact_match | 0.3600 | ± | 0.0152 |
- kmmlu_direct_gas_technology_and_engineering | 2 | none | 5 | exact_match | 0.3320 | ± | 0.0149 |
- kmmlu_direct_geomatics | 2 | none | 5 | exact_match | 0.3640 | ± | 0.0152 |
- kmmlu_direct_health | 2 | none | 5 | exact_match | 0.5100 | ± | 0.0502 |
- kmmlu_direct_industrial_engineer | 2 | none | 5 | exact_match | 0.3970 | ± | 0.0155 |
- kmmlu_direct_information_technology | 2 | none | 5 | exact_match | 0.5720 | ± | 0.0157 |
- kmmlu_direct_interior_architecture_and_design | 2 | none | 5 | exact_match | 0.4740 | ± | 0.0158 |
- kmmlu_direct_korean_history | 2 | none | 5 | exact_match | 0.2700 | ± | 0.0446 |
- kmmlu_direct_law | 2 | none | 5 | exact_match | 0.3990 | ± | 0.0155 |
- kmmlu_direct_machine_design_and_manufacturing | 2 | none | 5 | exact_match | 0.4080 | ± | 0.0155 |
- kmmlu_direct_management | 2 | none | 5 | exact_match | 0.4660 | ± | 0.0158 |
- kmmlu_direct_maritime_engineering | 2 | none | 5 | exact_match | 0.4417 | ± | 0.0203 |
- kmmlu_direct_marketing | 2 | none | 5 | exact_match | 0.6720 | ± | 0.0149 |
- kmmlu_direct_materials_engineering | 2 | none | 5 | exact_match | 0.4130 | ± | 0.0156 |
- kmmlu_direct_math | 2 | none | 5 | exact_match | 0.2567 | ± | 0.0253 |
- kmmlu_direct_mechanical_engineering | 2 | none | 5 | exact_match | 0.3800 | ± | 0.0154 |
- kmmlu_direct_nondestructive_testing | 2 | none | 5 | exact_match | 0.3890 | ± | 0.0154 |
- kmmlu_direct_patent | 2 | none | 5 | exact_match | 0.2700 | ± | 0.0446 |
- kmmlu_direct_political_science_and_sociology | 2 | none | 5 | exact_match | 0.4433 | ± | 0.0287 |
- kmmlu_direct_psychology | 2 | none | 5 | exact_match | 0.3620 | ± | 0.0152 |
- kmmlu_direct_public_safety | 2 | none | 5 | exact_match | 0.3200 | ± | 0.0148 |
- kmmlu_direct_railway_and_automotive_engineering | 2 | none | 5 | exact_match | 0.3200 | ± | 0.0148 |
- kmmlu_direct_real_estate | 2 | none | 5 | exact_match | 0.3650 | ± | 0.0341 |
- kmmlu_direct_refrigerating_machinery | 2 | none | 5 | exact_match | 0.3210 | ± | 0.0148 |
- kmmlu_direct_social_welfare | 2 | none | 5 | exact_match | 0.4500 | ± | 0.0157 |
- kmmlu_direct_taxation | 2 | none | 5 | exact_match | 0.3550 | ± | 0.0339 |
- kmmlu_direct_telecommunications_and_wireless_technology | 2 | none | 5 | exact_match | 0.5490 | ± | 0.0157 |
kobest_boolq | 1 | none | 5 | acc | 0.7984 | ± | 0.0107 |
none | 5 | f1 | 0.7961 | ± | N/A | ||
kobest_copa | 1 | none | 5 | acc | 0.8150 | ± | 0.0123 |
none | 5 | f1 | 0.8148 | ± | N/A | ||
kobest_hellaswag | 1 | none | 5 | acc | 0.4800 | ± | 0.0224 |
none | 5 | f1 | 0.4771 | ± | N/A | ||
none | 5 | acc_norm | 0.6120 | ± | 0.0218 | ||
kobest_sentineg | 1 | none | 5 | acc | 0.9597 | ± | 0.0099 |
none | 5 | f1 | 0.9597 | ± | N/A |
引用说明
如果你使用了该模型,可以按照以下格式进行引用:
Llama-3-Open-Ko
@article{llama3openko,
title={Llama-3-Open-Ko},
author={L, Junbum},
year={2024},
url={https://huggingface.co/beomi/Llama-3-Open-Ko-8B}
}
原始Llama-3
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
📄 许可证
该模型遵循Llama3许可证,详情请见https://llama.meta.com/llama3/license。



