gpt3-finnish-large开源模型 - 支持芬兰语内容生成，免费体验语言魅力！

首页

Gpt3 Finnish Large

由 TurkuNLP 开发

图尔库大学开发的8.81亿参数芬兰语生成式预训练Transformer模型，基于BLOOM架构

大型语言模型

Transformers

其他开源协议:Apache-2.0 #芬兰语生成 #BLOOM架构 #单语预训练

下载量 627

发布时间 : 2/15/2023

模型简介

面向芬兰语的单语预训练语言模型，可作为基础模型通过指令微调转化为聊天模型

模型特点

大规模芬兰语训练

整合15+芬兰语数据源，训练数据达2070亿字符量

科学采样策略

对不同数据源采用1.0-3.0的差异化权重采样

纯语言模型设计

未经过指令微调的基础模型，适合二次开发

模型能力

芬兰语文本生成

语言模型微调基础

上下文语义理解

使用案例

自然语言处理

聊天机器人基础模型

通过指令微调转化为芬兰语对话系统

文本自动生成

生成芬兰语新闻、故事等连贯文本

教育科研

语言模型研究

作为芬兰语NLP研究的基线模型

🚀 芬兰语8.81亿参数生成式预训练Transformer模型

本项目是一个针对芬兰语的生成式预训练Transformer模型，具有8.81亿参数。TurkuNLP芬兰语GPT - 3模型家族是基于BLOOM架构的预训练单语GPT风格语言模型。需要注意的是，这些模型是纯语言模型，即它们没有针对对话或回答问题进行指令微调。这些模型旨在作为基础模型，例如可以进行指令微调以用作现代聊天模型。

🚀 快速开始

本模型可作为基础模型使用，后续可通过指令微调等操作，使其适用于不同的自然语言处理任务，如对话、问答等。

✨ 主要特性

参数丰富：提供了从1.86亿到133亿等多种不同参数规模的模型，可根据具体需求选择。
多数据源训练：使用了多种芬兰语资源组合进行训练，确保模型对芬兰语的广泛覆盖和理解。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

暂未提供相关代码示例。

📚 详细文档

模型参数

模型	层数	维度	头数	参数数量
小型	12	768	12	1.86亿
中型	24	1024	16	4.37亿
大型	24	1536	16	8.81亿
XL	24	2064	24	15亿
”3B”	32	2560	32	28亿
”8B”	32	4096	32	75亿
"13B"	40	5120	40	133亿

训练数据集

我们使用了多种芬兰语资源的组合进行训练：

芬兰语互联网解析库 https://turkunlp.org/finnish_nlp.html
mC4多语言大规模清理后的通用爬虫数据 https://huggingface.co/datasets/mc4
通用爬虫芬兰语数据 https://TODO
芬兰语维基百科 https://fi.wikipedia.org/wiki
Lönnrot项目 http://www.lonnrot.net/
国家图书馆电子图书（”epub”）馆藏
国家图书馆期刊（”lehdet”）馆藏
Suomi24语料库（2001 - 2020） http://urn.fi/urn:nbn:fi:lb-2021101527
Reddit芬兰语板块（r/Suomi）的帖子和评论 https://www.reddit.com/r/Suomi
芬兰通讯社STT新闻存档（1992 - 2018） http://urn.fi/urn:nbn:fi:lb-2019041501
芬兰广播公司Yle新闻存档（2011 - 2018） http://urn.fi/urn:nbn:fi:lb-2017070501
芬兰广播公司Yle新闻存档（2019 - 2020） http://urn.fi/urn:nbn:fi:lb-2021050401
芬兰广播公司Yle简易芬兰语新闻存档（2011 - 2018） http://urn.fi/urn:nbn:fi:lb-2019050901
ROOTS TODO

采样比例

数据集	字符数	比例	权重	加权比例
解析库	350亿	16.9%	1.5	22.7%
mC4芬兰语	463亿	22.4%	1.0	20.0%
通用爬虫芬兰语	796亿	38.5%	1.0	34.4%
芬兰语维基百科	8亿	0.4%	3.0	1.0%
Lönnrot	8亿	0.4%	3.0	1.0%
芬兰广播公司Yle	16亿	0.8%	2.0	1.4%
芬兰通讯社STT	22亿	1.1%	2.0	1.9%
电子图书	135亿	6.5%	1.0	5.8%
期刊	58亿	2.8%	1.0	2.5%
Suomi24	206亿	9.9%	1.0	8.9%
Reddit芬兰语	7亿	0.4%	1.0	0.3%
总计	2070亿	100.0%	不适用	100.0%