🚀 SEA-LION-v1-3B
SEA-LION是一系列大语言模型(LLMs),针对东南亚(SEA)地区进行了预训练和指令微调。模型的参数规模从30亿到70亿不等。此为SEA-LION-v1-3B的介绍页。
SEA-LION代表东南亚语言一网打尽(Southeast Asian Languages In One Network)。
📚 详细文档
模型描述
SEA-LION模型是自然语言处理领域的重大突破,专门针对东南亚地区的语境进行训练。
SEA-LION-v1-3B基于强大的MPT架构构建,词汇量达256K。
在分词方面,该模型采用了我们定制的SEABPETokenizer,它是专门为东南亚语言量身定制的,可确保模型达到最佳性能。
SEA-LION-v1-3B的训练数据包含9800亿个词元。
- 开发者:新加坡人工智能公司产品支柱团队
- 资助方:新加坡国家研究基金会
- 模型类型:解码器
- 支持语言:英语、中文、印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语、老挝语
- 许可证:MIT许可证
性能基准
SEA-LION-v1-3B在英语通用任务上表现出一定的平均性能(根据Hugging Face的大语言模型排行榜衡量):
模型 |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
平均 |
SEA-LION 3B |
36.26 |
64.59 |
24.07 |
36.46 |
40.35 |
🔧 技术细节
数据
SEA-LION-v1-3B在以下9800亿个词元的数据上进行训练:
数据源 |
唯一词元 |
乘数 |
总词元 |
百分比 |
RefinedWeb - 英语 |
5713亿 |
1 |
5713亿 |
58.20% |
mC4 - 中文 |
912亿 |
1 |
912亿 |
9.29% |
mC4 - 印尼语 |
36.8亿 |
4 |
147亿 |
1.50% |
mC4 - 马来语 |
7.2亿 |
4 |
29亿 |
0.29% |
mC4 - 菲律宾语 |
13.2亿 |
4 |
53亿 |
0.54% |
mC4 - 缅甸语 |
12亿 |
4 |
49亿 |
0.49% |
mC4 - 越南语 |
634亿 |
1 |
634亿 |
6.46% |
WangChanBERTa - 泰语 |
50亿 |
2 |
100亿 |
1.02% |
mC4 - 泰语 |
58亿 |
2 |
116亿 |
1.18% |
mC4 - 老挝语 |
2.7亿 |
4 |
11亿 |
0.12% |
mC4 - 高棉语 |
9.7亿 |
4 |
39亿 |
0.40% |
mC4 - 泰米尔语 |
25.5亿 |
4 |
102亿 |
1.04% |
the Stack - Python |
209亿 |
2 |
418亿 |
4.26% |
the Stack - Javascript |
556亿 |
1 |
556亿 |
5.66% |
the Stack - Shell |
12.5亿 |
2 |
25亿 |
0.26% |
the Stack - SQL |
64亿 |
2 |
128亿 |
1.31% |
the Stack - Markdown |
266亿 |
1 |
266亿 |
2.71% |
RedPajama - StackExchange |
212亿 |
1 |
212亿 |
2.16% |
RedPajama - ArXiv |
306亿 |
1 |
306亿 |
3.12% |
基础设施
SEA-LION-v1-3B使用MosaicML Composer在以下硬件上进行训练:
训练详情 |
SEA-LION-v1-3B |
AWS EC2 p4d.24xlarge |
30 个实例 |
Nvidia A100 40GB GPU |
240 个 |
训练时长 |
14 天 |
配置
超参数 |
SEA-LION-v1-3B |
精度 |
bfloat16 |
优化器 |
decoupled_adamw |
调度器 |
cosine_with_warmup |
学习率 |
1.6e-4 |
全局批次大小 |
1200 |
微批次大小 |
5 |
模型架构和目标
SEA-LION-v1-3B是一个使用MPT架构的解码器模型。
参数 |
SEA-LION-v1-3B |
层数 |
32 |
d_model |
2560 |
头维度 |
20 |
词汇量 |
256000 |
序列长度 |
2048 |
分词器详情
我们从训练数据中抽取了2000万行来训练分词器。训练框架为SentencePiece,分词器类型为字节对编码(BPE)。
👥 团队成员
- Lam Wen Zhi Clarence
- Leong Wei Qi
- Li Yier
- Liu Bing Jie Darius
- Lovenia Holy
- Montalan Jann Railey
- Ng Boon Cheong Raymond
- Ngui Jian Gang
- Nguyen Thanh Ngan
- Ong Tat-Wee David
- Rengarajan Hamsawardhini
- Susanto Yosephine
- Tai Ngee Chia
- Tan Choon Meng
- Teo Jin Howe
- Teo Eng Sipp Leslie
- Teo Wei Yi
- Tjhi William
- Yeo Yeow Tong
- Yong Xianbin
🙏 致谢
新加坡人工智能是由新加坡国家研究基金会支持的国家项目,由新加坡国立大学主办。本材料中表达的任何观点、研究结果、结论或建议均为作者个人观点,不反映新加坡国家研究基金会的意见。
📞 联系我们
如需更多信息,请通过此SEA-LION咨询表单与我们联系。
SEA-LION的GitHub仓库链接
⚠️ 免责声明
此为基础模型的仓库。该模型尚未进行安全对齐。开发者和用户应自行进行安全微调及相关安全措施。在任何情况下,作者均不对因使用发布的权重和代码而产生的任何索赔、损害或其他责任负责。
📚 参考文献
泰语预训练数据参考
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}