🚀 芬兰语8.81亿参数生成式预训练Transformer模型
本项目是一个针对芬兰语的生成式预训练Transformer模型,具有8.81亿参数。TurkuNLP芬兰语GPT - 3模型家族是基于BLOOM架构的预训练单语GPT风格语言模型。需要注意的是,这些模型是纯语言模型,即它们没有针对对话或回答问题进行指令微调。这些模型旨在作为基础模型,例如可以进行指令微调以用作现代聊天模型。
🚀 快速开始
本模型可作为基础模型使用,后续可通过指令微调等操作,使其适用于不同的自然语言处理任务,如对话、问答等。
✨ 主要特性
- 参数丰富:提供了从1.86亿到133亿等多种不同参数规模的模型,可根据具体需求选择。
- 多数据源训练:使用了多种芬兰语资源组合进行训练,确保模型对芬兰语的广泛覆盖和理解。
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
暂未提供相关代码示例。
📚 详细文档
模型参数
模型 |
层数 |
维度 |
头数 |
参数数量 |
小型 |
12 |
768 |
12 |
1.86亿 |
中型 |
24 |
1024 |
16 |
4.37亿 |
大型 |
24 |
1536 |
16 |
8.81亿 |
XL |
24 |
2064 |
24 |
15亿 |
”3B” |
32 |
2560 |
32 |
28亿 |
”8B” |
32 |
4096 |
32 |
75亿 |
"13B" |
40 |
5120 |
40 |
133亿 |
训练数据集
我们使用了多种芬兰语资源的组合进行训练:
- 芬兰语互联网解析库 https://turkunlp.org/finnish_nlp.html
- mC4多语言大规模清理后的通用爬虫数据 https://huggingface.co/datasets/mc4
- 通用爬虫芬兰语数据 https://TODO
- 芬兰语维基百科 https://fi.wikipedia.org/wiki
- Lönnrot项目 http://www.lonnrot.net/
- 国家图书馆电子图书(”epub”)馆藏
- 国家图书馆期刊(”lehdet”)馆藏
- Suomi24语料库(2001 - 2020) http://urn.fi/urn:nbn:fi:lb-2021101527
- Reddit芬兰语板块(r/Suomi)的帖子和评论 https://www.reddit.com/r/Suomi
- 芬兰通讯社STT新闻存档(1992 - 2018) http://urn.fi/urn:nbn:fi:lb-2019041501
- 芬兰广播公司Yle新闻存档(2011 - 2018) http://urn.fi/urn:nbn:fi:lb-2017070501
- 芬兰广播公司Yle新闻存档(2019 - 2020) http://urn.fi/urn:nbn:fi:lb-2021050401
- 芬兰广播公司Yle简易芬兰语新闻存档(2011 - 2018) http://urn.fi/urn:nbn:fi:lb-2019050901
- ROOTS TODO
采样比例
数据集 |
字符数 |
比例 |
权重 |
加权比例 |
解析库 |
350亿 |
16.9% |
1.5 |
22.7% |
mC4芬兰语 |
463亿 |
22.4% |
1.0 |
20.0% |
通用爬虫芬兰语 |
796亿 |
38.5% |
1.0 |
34.4% |
芬兰语维基百科 |
8亿 |
0.4% |
3.0 |
1.0% |
Lönnrot |
8亿 |
0.4% |
3.0 |
1.0% |
芬兰广播公司Yle |
16亿 |
0.8% |
2.0 |
1.4% |
芬兰通讯社STT |
22亿 |
1.1% |
2.0 |
1.9% |
电子图书 |
135亿 |
6.5% |
1.0 |
5.8% |
期刊 |
58亿 |
2.8% |
1.0 |
2.5% |
Suomi24 |
206亿 |
9.9% |
1.0 |
8.9% |
Reddit芬兰语 |
7亿 |
0.4% |
1.0 |
0.3% |
总计 |
2070亿 |
100.0% |
不适用 |
100.0% |
其他说明
所有模型均针对3000亿个标记进行训练。更多文档和相关论文即将发布。
🔧 技术细节
暂未提供相关技术细节。
📄 许可证
本项目采用Apache - 2.0许可证。