🚀 芬蘭語8.81億參數生成式預訓練Transformer模型
本項目是一個針對芬蘭語的生成式預訓練Transformer模型,具有8.81億參數。TurkuNLP芬蘭語GPT - 3模型家族是基於BLOOM架構的預訓練單語GPT風格語言模型。需要注意的是,這些模型是純語言模型,即它們沒有針對對話或回答問題進行指令微調。這些模型旨在作為基礎模型,例如可以進行指令微調以用作現代聊天模型。
🚀 快速開始
本模型可作為基礎模型使用,後續可通過指令微調等操作,使其適用於不同的自然語言處理任務,如對話、問答等。
✨ 主要特性
- 參數豐富:提供了從1.86億到133億等多種不同參數規模的模型,可根據具體需求選擇。
- 多數據源訓練:使用了多種芬蘭語資源組合進行訓練,確保模型對芬蘭語的廣泛覆蓋和理解。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
暫未提供相關代碼示例。
📚 詳細文檔
模型參數
模型 |
層數 |
維度 |
頭數 |
參數數量 |
小型 |
12 |
768 |
12 |
1.86億 |
中型 |
24 |
1024 |
16 |
4.37億 |
大型 |
24 |
1536 |
16 |
8.81億 |
XL |
24 |
2064 |
24 |
15億 |
”3B” |
32 |
2560 |
32 |
28億 |
”8B” |
32 |
4096 |
32 |
75億 |
"13B" |
40 |
5120 |
40 |
133億 |
訓練數據集
我們使用了多種芬蘭語資源的組合進行訓練:
- 芬蘭語互聯網解析庫 https://turkunlp.org/finnish_nlp.html
- mC4多語言大規模清理後的通用爬蟲數據 https://huggingface.co/datasets/mc4
- 通用爬蟲芬蘭語數據 https://TODO
- 芬蘭語維基百科 https://fi.wikipedia.org/wiki
- Lönnrot項目 http://www.lonnrot.net/
- 國家圖書館電子圖書(”epub”)館藏
- 國家圖書館期刊(”lehdet”)館藏
- Suomi24語料庫(2001 - 2020) http://urn.fi/urn:nbn:fi:lb-2021101527
- Reddit芬蘭語板塊(r/Suomi)的帖子和評論 https://www.reddit.com/r/Suomi
- 芬蘭通訊社STT新聞存檔(1992 - 2018) http://urn.fi/urn:nbn:fi:lb-2019041501
- 芬蘭廣播公司Yle新聞存檔(2011 - 2018) http://urn.fi/urn:nbn:fi:lb-2017070501
- 芬蘭廣播公司Yle新聞存檔(2019 - 2020) http://urn.fi/urn:nbn:fi:lb-2021050401
- 芬蘭廣播公司Yle簡易芬蘭語新聞存檔(2011 - 2018) http://urn.fi/urn:nbn:fi:lb-2019050901
- ROOTS TODO
採樣比例
數據集 |
字符數 |
比例 |
權重 |
加權比例 |
解析庫 |
350億 |
16.9% |
1.5 |
22.7% |
mC4芬蘭語 |
463億 |
22.4% |
1.0 |
20.0% |
通用爬蟲芬蘭語 |
796億 |
38.5% |
1.0 |
34.4% |
芬蘭語維基百科 |
8億 |
0.4% |
3.0 |
1.0% |
Lönnrot |
8億 |
0.4% |
3.0 |
1.0% |
芬蘭廣播公司Yle |
16億 |
0.8% |
2.0 |
1.4% |
芬蘭通訊社STT |
22億 |
1.1% |
2.0 |
1.9% |
電子圖書 |
135億 |
6.5% |
1.0 |
5.8% |
期刊 |
58億 |
2.8% |
1.0 |
2.5% |
Suomi24 |
206億 |
9.9% |
1.0 |
8.9% |
Reddit芬蘭語 |
7億 |
0.4% |
1.0 |
0.3% |
總計 |
2070億 |
100.0% |
不適用 |
100.0% |
其他說明
所有模型均針對3000億個標記進行訓練。更多文檔和相關論文即將發佈。
🔧 技術細節
暫未提供相關技術細節。
📄 許可證
本項目採用Apache - 2.0許可證。