🚀 Llama-SEA-LION-v3-8B
SEA-LION 是一系列大语言模型(LLM),针对东南亚(SEA)地区进行了预训练和指令微调。Llama-SEA-LION-v3-8B 是一个多语言模型,在约 2000 亿 个东南亚 11 种语言的标记上进行了持续预训练,这些语言包括缅甸语、中文、英语、菲律宾语、印尼语、高棉语、老挝语、马来语、泰米尔语、泰语和越南语。SEA-LION 代表 “将东南亚语言整合在一个网络中”。
🚀 快速开始
本部分暂未提供相关内容。
✨ 主要特性
- 多语言支持:支持缅甸语、中文、英语、菲律宾语、印尼语、高棉语、老挝语、马来语、泰米尔语、泰语和越南语等 11 种东南亚语言。
- 持续预训练:在约 2000 亿个标记上进行了持续预训练,提升了模型在这些语言上的性能。
📚 详细文档
模型详情
模型描述
我们在 Llama-3.1-8B-Instruct 这个使用 Llama 3.1 架构的解码器模型上,对英语和东南亚语言进行了持续预训练,从而创建了 Llama-SEA-LION-v3-8B。在分词方面,该模型采用了 Llama 3.1 8B Instruct 中使用的默认分词器。
基准测试性能
我们评估了 Llama-SEA-LION-v3-8B 的通用语言能力和遵循约束的行为。
- 通用语言能力和遵循约束的行为:在评估通用语言能力时,我们使用了 SEA-HELM 评估基准 进行了各种任务的评估,这些任务包括问答(QA)、情感分析(Sentiment)、毒性检测(Toxicity)、双向翻译(英语到其他语言和其他语言到英语)、摘要生成(Abssum)、因果推理(Causal)和自然语言推理(NLI)。
- 注意:SEA-HELM 使用提示来引出严格格式的答案。对于所有任务,模型需要提供一个答案标签,以便自动提取答案。对于提供选项的任务,答案应包含预定义的选项之一。每个任务的分数都进行了归一化处理,以考虑随机猜测的基线性能。评估是在每个数据集的 100 - 1000 个实例样本上进行的,采用五样本学习(five-shot)和原生提示。
- SEA-IFEval:基于 IFEval,团队中的语言学家和母语人士共同对数据集进行筛选、本地化和翻译成各自的目标语言,以确保示例合理、有意义且自然。SEA-IFEval 评估模型遵循提示中提供的约束的能力,例如以特定的单词/短语开始回复或以特定数量的段落回答。此外,准确率通过正确语言的回复比例进行归一化处理(如果模型正确执行了任务但回复语言错误,则判定任务失败)。有关 Llama-SEA-LION-v3-8B 基准测试性能的更多详细信息,请参考 SEA-HELM 排行榜,https://leaderboard.sea-lion.ai/。
技术规格
基础设施
Llama-SEA-LION-v3-8B 使用 MosaicML Composer 在以下硬件上进行训练:
训练详情 |
Llama-SEA-LION-v3-8B |
AWS p5e.48xlarge |
8 个实例 |
Nvidia H200 140GB GPU |
64 个 |
训练时长 |
136 小时 |
配置
超参数 |
Llama-SEA-LION-v3-8B |
精度 |
bfloat16 |
优化器 |
decoupled_adamw |
调度器 |
weight_stable_decay |
学习率 |
1.0e-5 |
全局批量大小 |
512 |
数据
Llama-SEA-LION-v3-8B 在以下约 2000 亿个标记的数据上进行了持续预训练:
语言 |
来源 |
总标记数(B) |
百分比(%) |
总百分比(%) |
代码 |
StackV2 |
40 |
20 |
20 |
英语 |
Dolma |
37.5 |
18.75 |
25 |
|
Fineweb-Edu |
7.5 |
3.75 |
|
|
其他 |
5 |
2.5 |
|
中文 |
SEA-LION Pile v1 |
12 |
6 |
13 |
|
其他 |
14 |
7 |
|
越南语 |
SEA-LION Pile v1 |
8.4 |
4.2 |
13 |
|
VinBigData |
16 |
8 |
|
|
其他 |
1.6 |
0.8 |
|
印尼语 |
SEA-LION Pile v1 |
7 |
3.5 |
13 |
|
SEA-LION Pile v2 |
7 |
3.5 |
|
|
其他 |
12 |
6 |
|
泰语 |
SEA-LION Pile v1 |
10.7 |
5.35 |
10 |
|
WangChanBERTa |
8.5 |
4.25 |
|
|
其他 |
0.8 |
0.4 |
|
菲律宾语 - 马来语 - 泰米尔语 |
SEA-LION Pile v1, AI4Bharat Sangraha |
4.28 |
2.14 |
3 |
|
其他 |
1.72 |
0.86 |
|
高棉语 - 老挝语 - 缅甸语 |
SEA-LION Pile v1 |
5.2 |
2.6 |
3 |
|
其他 |
0.8 |
0.4 |
|
注意:
- 所有标记计数均使用 Llama 3.1 8B Instruct 分词器进行计数。
- SEA-LION Pile v1 是从 Common Crawl WET 处理而来,发布地址为 here。此版本的截止日期为 2020 年 9 月。
- SEA-LION Pile v2 是从 2020 年 10 月至 2024 年 4 月的 Common Crawl WARC 处理而来。
- Sangraha 中的泰米尔语数据发布地址为 here。相关论文可在 here 找到。
- 泰米尔语新闻经 Seithi 许可获取。
🔧 技术细节
本部分内容已在上述 “详细文档” 中的 “技术规格” 部分详细介绍。
🤝 贡献呼吁
我们鼓励研究人员、开发者和语言爱好者积极为 SEA-LION 的改进和扩展做出贡献。贡献可以包括识别和报告错误、分享预训练、指令和偏好数据、提高文档的可用性、提出并实施新的模型评估任务和指标,或者在更多东南亚语言上训练模型版本。通过分享您的专业知识和见解,加入我们塑造 SEA-LION 的未来,使这些模型更易访问、更准确和更通用。有关贡献呼吁的更多信息,请查看我们的 GitHub 仓库。
👥 团队成员
Chan Adwin、Cheng Nicholas、Choa Esther、Huang Yuli、Hulagadri Adithya Venkatadri、Lau Wayne、Lee Chwan Ren、Leong Wai Yi、Leong Wei Qi、Limkonchotiwat Peerat、Liu Bing Jie Darius、Montalan Jann Railey、Ng Boon Cheong Raymond、Ngui Jian Gang、Nguyen Thanh Ngan、Ong Brandon、Ong Tat-Wee David、Ong Zhi Hao、Rengarajan Hamsawardhini、Siow Bryan、Susanto Yosephine、Tai Ngee Chia、Tan Choon Meng、Teng Walter、Teo Eng Sipp Leslie、Teo Wei Yi、Tjhi William、Yeo Yeow Tong、Yong Xianbin
🙏 致谢
新加坡人工智能中心 是一个由新加坡国家研究基金会支持、新加坡国立大学托管的国家项目。本材料中表达的任何意见、研究结果、结论或建议均为作者个人观点,不反映国家研究基金会或新加坡国立大学的观点。
📞 联系我们
如需更多信息,请使用 SEA-LION 咨询表单 与我们联系。
SEA-LION 的 GitHub 仓库链接
⚠️ 免责声明
这是商业指令微调模型的仓库。该模型 未 进行安全对齐。开发者和用户应自行进行安全微调及相关安全措施。在任何情况下,作者均不对因使用发布的权重和代码而产生的任何索赔、损害或其他责任负责。
📚 参考文献
泰语预训练数据参考
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}