🚀 Gemma-SEA-LION-v3-9B
SEA-LION 是一系列大语言模型(LLMs),专为东南亚(SEA)地区进行了预训练和指令微调。Gemma-SEA-LION-v3-9B 是一个多语言模型,它在约 2000 亿 个标记的 11 种东南亚官方语言数据上进行了持续预训练,这些语言包括英语、中文、越南语、印尼语、泰语、泰米尔语、菲律宾语、马来语、高棉语、老挝语和缅甸语。
SEA-LION 代表 东南亚语言一网打尽。
- 开发者: 新加坡人工智能公司产品支柱团队
- 资助方: 新加坡国家研究基金会
- 模型类型: 解码器
- 支持语言: 缅甸语、中文、英语、菲律宾语、印尼语、高棉语、老挝语、马来语、泰米尔语、泰语、越南语
- 许可证: Gemma 社区许可证
✨ 主要特性
模型详情
模型描述
我们在 Gemma-2-9B 这个采用 Gemma 2 架构的解码器模型基础上,用英语和东盟语言进行了持续预训练,从而创建了 Gemma-SEA-LION-v3-9B。
在标记化方面,该模型采用了 Gemma 2 9B 中使用的默认分词器。
基准性能
我们对 Gemma-SEA-LION-v3-9B 的通用语言能力进行了评估。
- 通用语言能力:在评估通用语言能力时,我们使用了 SEA-HELM 评估基准 进行了多种任务的测试。这些任务包括问答(QA)、情感分析(Sentiment)、毒性检测(Toxicity)、双向翻译(英语到其他语言和其他语言到英语)、摘要生成(Summ)、因果推理(Causal)和自然语言推理(NLI)。
注意:SEA HELM 采用提示的方式以严格的格式获取答案。对于所有任务,模型需要提供一个答案标签,以便自动提取答案。对于提供选项的任务,答案应从预定义的选项中选择。每个任务的分数都进行了归一化处理,以考虑随机猜测的基线性能。
评估是在每个数据集的 100 - 1000 个实例上进行的 五样本学习,使用了原生提示。
有关 Gemma-SEA-LION-v3-9B 基准性能的更多详细信息,请参考 SEA HELM 排行榜:https://leaderboard.sea-lion.ai/
技术细节
基础设施
Gemma-SEA-LION-v3-9B 是使用 MosaicML Composer 在以下硬件上进行训练的:
训练详情 |
Gemma-SEA-LION-v3-9B |
新加坡电信 HGX-100 |
8 个实例 |
NVIDIA H100 80GB GPU |
64 个 |
训练时长 |
10 天 |
配置
超参数 |
Gemma-SEA-LION-v3-9B |
精度 |
bfloat16 |
优化器 |
decoupled_adamw |
调度器 |
weight_stable_decay |
学习率 |
1.0e-5 |
全局批量大小 |
512 |
微批量大小 |
1 |
数据
Gemma-SEA-LION-v3-9B 在 2000 亿个标记的以下数据上进行了持续预训练:
语言 |
来源 |
总标记数(十亿) |
百分比(%) |
累计百分比(%) |
代码 |
StackV2 |
40 |
20 |
20 |
英语 |
Dolma |
37.5 |
18.75 |
25 |
|
Fineweb-Edu |
7.5 |
3.75 |
|
|
其他 |
5 |
2.5 |
|
中文 |
SEA-LION Pile v1 |
12 |
6 |
13 |
|
其他 |
14 |
7 |
|
越南语 |
SEA-LION Pile v1 |
8.4 |
4.2 |
13 |
|
VinBigData |
16 |
8 |
|
|
其他 |
1.6 |
0.8 |
|
印尼语 |
SEA-LION Pile v1 |
7 |
3.5 |
13 |
|
SEA-LION Pile v2 |
7 |
3.5 |
|
|
其他 |
12 |
6 |
|
泰语 |
SEA-LION Pile v1 |
10.7 |
5.35 |
10 |
|
WangChanBERTa |
8.5 |
4.25 |
|
|
其他 |
0.8 |
0.4 |
|
菲律宾语 - 马来语 - 泰米尔语 |
SEA-LION Pile v1 |
4.28 |
2.14 |
3 |
|
其他 |
1.72 |
0.86 |
|
高棉语 - 老挝语 - 缅甸语 |
SEA-LION Pile v1 |
5.2 |
2.6 |
3 |
|
其他 |
0.8 |
0.4 |
|
注意:
- 所有标记数均使用 Gemma 2 9B 分词器进行统计。
- SEA-LION Pile v1 是从 Common Crawl WET 处理而来,相关数据发布在 此处。该版本的截止日期为 2020 年 9 月。
- SEA-LION Pile v2 是从 2020 年 10 月至 2024 年 4 月的 Common Crawl WARC 处理而来。
- 泰米尔语新闻数据经 Seithi 授权获取。
📚 详细文档
贡献呼吁
我们鼓励研究人员、开发者和语言爱好者积极为 SEA-LION 的改进和扩展做出贡献。贡献内容可以包括识别和报告漏洞、分享预训练、指令和偏好数据、提高文档的可用性、提出并实现新的模型评估任务和指标,或者在更多东南亚语言上训练模型版本。欢迎分享您的专业知识和见解,与我们一起塑造 SEA-LION 的未来,让这些模型更加易用、准确和通用。有关贡献呼吁的更多信息,请查看我们的 GitHub 仓库。
团队成员
Chan Adwin、Cheng Nicholas、Choa Esther、Huang Yuli、Hulagadri Adithya Venkatadri、Lau Wayne、Lee Chwan Ren、Leong Wai Yi、Leong Wei Qi、Limkonchotiwat Peerat、Liu Bing Jie Darius、Montalan Jann Railey、Ng Boon Cheong Raymond、Ngui Jian Gang、Nguyen Thanh Ngan、Ong Brandon、Ong Tat-Wee David、Ong Zhi Hao、Rengarajan Hamsawardhini、Siow Bryan、Susanto Yosephine、Tai Ngee Chia、Tan Choon Meng、Teng Walter、Teo Eng Sipp Leslie、Teo Wei Yi、Tjhi William、Yeo Yeow Tong、Yong Xianbin
致谢
新加坡人工智能公司 是一个由新加坡国家研究基金会支持、新加坡国立大学托管的国家项目。本材料中表达的任何观点、研究结果、结论或建议均为作者个人观点,不反映新加坡国家研究基金会或新加坡国立大学的意见。
联系方式
如需更多信息,请通过 SEA-LION 咨询表单 与我们联系。
SEA-LION 的 GitHub 仓库链接
免责声明
这是商业指令微调模型的仓库。该模型 未进行安全对齐。开发者和用户应自行进行安全微调及相关安全措施。作者不对因使用发布的权重和代码而产生的任何索赔、损害或其他责任负责。
参考文献
泰语预训练数据参考文献
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}