gpt3-finnish-large開源模型 - 支持芬蘭語內容生成，免費體驗語言魅力！

首頁

Gpt3 Finnish Large

由TurkuNLP開發

圖爾庫大學開發的8.81億參數芬蘭語生成式預訓練Transformer模型，基於BLOOM架構

大型語言模型

Transformers

其他開源協議:Apache-2.0 #芬蘭語生成 #BLOOM架構 #單語預訓練

下載量 627

發布時間 : 2/15/2023

模型概述

面向芬蘭語的單語預訓練語言模型，可作為基礎模型通過指令微調轉化為聊天模型

模型特點

大規模芬蘭語訓練

整合15+芬蘭語數據源，訓練數據達2070億字符量

科學採樣策略

對不同數據源採用1.0-3.0的差異化權重採樣

純語言模型設計

未經過指令微調的基礎模型，適合二次開發

模型能力

芬蘭語文本生成

語言模型微調基礎

上下文語義理解

使用案例

自然語言處理

聊天機器人基礎模型

通過指令微調轉化為芬蘭語對話系統

文本自動生成

生成芬蘭語新聞、故事等連貫文本

教育科研

語言模型研究

作為芬蘭語NLP研究的基線模型

🚀 芬蘭語8.81億參數生成式預訓練Transformer模型

本項目是一個針對芬蘭語的生成式預訓練Transformer模型，具有8.81億參數。TurkuNLP芬蘭語GPT - 3模型家族是基於BLOOM架構的預訓練單語GPT風格語言模型。需要注意的是，這些模型是純語言模型，即它們沒有針對對話或回答問題進行指令微調。這些模型旨在作為基礎模型，例如可以進行指令微調以用作現代聊天模型。

🚀 快速開始

本模型可作為基礎模型使用，後續可通過指令微調等操作，使其適用於不同的自然語言處理任務，如對話、問答等。

✨ 主要特性

參數豐富：提供了從1.86億到133億等多種不同參數規模的模型，可根據具體需求選擇。
多數據源訓練：使用了多種芬蘭語資源組合進行訓練，確保模型對芬蘭語的廣泛覆蓋和理解。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

暫未提供相關代碼示例。

📚 詳細文檔

模型參數

模型	層數	維度	頭數	參數數量
小型	12	768	12	1.86億
中型	24	1024	16	4.37億
大型	24	1536	16	8.81億
XL	24	2064	24	15億
”3B”	32	2560	32	28億
”8B”	32	4096	32	75億
"13B"	40	5120	40	133億

訓練數據集

我們使用了多種芬蘭語資源的組合進行訓練：

芬蘭語互聯網解析庫 https://turkunlp.org/finnish_nlp.html
mC4多語言大規模清理後的通用爬蟲數據 https://huggingface.co/datasets/mc4
通用爬蟲芬蘭語數據 https://TODO
芬蘭語維基百科 https://fi.wikipedia.org/wiki
Lönnrot項目 http://www.lonnrot.net/
國家圖書館電子圖書（”epub”）館藏
國家圖書館期刊（”lehdet”）館藏
Suomi24語料庫（2001 - 2020） http://urn.fi/urn:nbn:fi:lb-2021101527
Reddit芬蘭語板塊（r/Suomi）的帖子和評論 https://www.reddit.com/r/Suomi
芬蘭通訊社STT新聞存檔（1992 - 2018） http://urn.fi/urn:nbn:fi:lb-2019041501
芬蘭廣播公司Yle新聞存檔（2011 - 2018） http://urn.fi/urn:nbn:fi:lb-2017070501
芬蘭廣播公司Yle新聞存檔（2019 - 2020） http://urn.fi/urn:nbn:fi:lb-2021050401
芬蘭廣播公司Yle簡易芬蘭語新聞存檔（2011 - 2018） http://urn.fi/urn:nbn:fi:lb-2019050901
ROOTS TODO

採樣比例

數據集	字符數	比例	權重	加權比例
解析庫	350億	16.9%	1.5	22.7%
mC4芬蘭語	463億	22.4%	1.0	20.0%
通用爬蟲芬蘭語	796億	38.5%	1.0	34.4%
芬蘭語維基百科	8億	0.4%	3.0	1.0%
Lönnrot	8億	0.4%	3.0	1.0%
芬蘭廣播公司Yle	16億	0.8%	2.0	1.4%
芬蘭通訊社STT	22億	1.1%	2.0	1.9%
電子圖書	135億	6.5%	1.0	5.8%
期刊	58億	2.8%	1.0	2.5%
Suomi24	206億	9.9%	1.0	8.9%
Reddit芬蘭語	7億	0.4%	1.0	0.3%
總計	2070億	100.0%	不適用	100.0%