🚀 フィンランド語用8億8100万パラメータの生成型事前学習トランスフォーマー
TurkuNLPのフィンランド語GPT - 3モデルは、BLOOMアーキテクチャに基づく事前学習された単言語GPTスタイルの言語モデルのモデルファミリーです。これらのモデルは純粋な言語モデルであり、対話や質問応答のために命令微調整されていないことに注意してください。
これらのモデルは、例えば命令微調整されて現代的なチャットモデルとして機能する基礎モデルとして使用されることを想定しています。
すべてのモデルは3000億トークンで学習されています。
🚀 クイックスタート
このモデルは、フィンランド語のテキスト生成に使用できる事前学習されたモデルです。基礎モデルとして、さらなる微調整が可能です。
✨ 主な機能
- BLOOMアーキテクチャに基づくGPTスタイルの言語モデル。
- 3000億トークンで学習された単言語モデル。
- 命令微調整により、現代的なチャットモデルとして機能させることが可能。
📚 ドキュメント
パラメータ
モデル |
レイヤー |
次元 |
ヘッド |
パラメータ |
Small |
12 |
768 |
12 |
1億8600万 |
Medium |
24 |
1024 |
16 |
4億3700万 |
Large |
24 |
1536 |
16 |
8億8100万 |
XL |
24 |
2064 |
24 |
15億 |
”3B” |
32 |
2560 |
32 |
28億 |
”8B” |
32 |
4096 |
32 |
75億 |
"13B" |
40 |
5120 |
40 |
133億 |
データセット
複数のフィンランド語リソースを組み合わせて使用しました。
- フィンランド語インターネットパースバンク https://turkunlp.org/finnish_nlp.html
- mC4多言語巨大クリーン化Common Crawl https://huggingface.co/datasets/mc4
- コモンクロールフィンランド語 https://TODO
- フィンランド語ウィキペディア https://fi.wikipedia.org/wiki
- レンロットプロジェクト レンロット http://www.lonnrot.net/
- 国立図書館のePubコレクション
- 国立図書館の”lehdet”コレクション
- スオミ24 スオミ24コーパス2001 - 2020 http://urn.fi/urn:nbn:fi:lb-2021101527
- Reddit r/Suomiの投稿とコメント https://www.reddit.com/r/Suomi
- STTフィンランド語ニュースアーカイブ1992 - 2018 http://urn.fi/urn:nbn:fi:lb-2019041501
- Yleフィンランド語ニュースアーカイブ2011 - 2018 http://urn.fi/urn:nbn:fi:lb-2017070501
- Yleフィンランド語ニュースアーカイブ2019 - 2020 http://urn.fi/urn:nbn:fi:lb-2021050401
- Yleニュースアーカイブの分かりやすいフィンランド語版2011 - 2018 http://urn.fi/urn:nbn:fi:lb-2019050901
- Yleニュースアーカイブの分かりやすいフィンランド語版2019 - 2020 http://urn.fi/urn:nbn:fi:lb-2021050701
- ROOTS TODO
サンプリング比率
データセット |
文字数 |
比率 |
重み |
重み付き比率 |
Parsebank |
350億 |
16.9% |
1.5 |
22.7% |
mC4 - Fi |
463億 |
22.4% |
1.0 |
20.0% |
CC - Fi |
796億 |
38.5% |
1.0 |
34.4% |
Fiwiki |
8億 |
0.4% |
3.0 |
1.0% |
Lönnrot |
8億 |
0.4% |
3.0 |
1.0% |
Yle |
16億 |
0.8% |
2.0 |
1.4% |
STT |
22億 |
1.1% |
2.0 |
1.9% |
ePub |
135億 |
6.5% |
1.0 |
5.8% |
Lehdet |
58億 |
2.8% |
1.0 |
2.5% |
Suomi24 |
206億 |
9.9% |
1.0 |
8.9% |
Reddit - Fi |
7億 |
0.4% |
1.0 |
0.3% |
合計 |
2070億 |
100.0% |
N/A |
100.0% |
ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。
⚠️ 重要提示
これらのモデルは純粋な言語モデルであり、対話や質問応答のために命令微調整されていません。
💡 使用建议
このモデルを基礎モデルとして、命令微調整を行うことで、現代的なチャットモデルとして使用することができます。
より詳細なドキュメントと論文は近日公開予定です。