gpt3-finnish-largeオープンソースモデル - フィンランド語のコンテンツ生成をサポート、無料で言語の魅力を体験！

Gpt3 Finnish Large

TurkuNLPによって開発

トゥルク大学が開発した8.81億パラメータのフィンランド語生成型事前学習Transformerモデル、BLOOMアーキテクチャベース

ダウンロード数 627

リリース時間 : 2/15/2023

モデル概要

フィンランド語向けの単一言語事前学習言語モデルで、指示チューニングによりチャットモデルに変換可能なベースモデルとして利用可能

大規模フィンランド語訓練

15以上のフィンランド語データソースを統合、訓練データは2070億文字規模

科学的サンプリング戦略

異なるデータソースに対して1.0-3.0の差異化重みサンプリングを採用

純粋言語モデル設計

指示チューニング未実施のベースモデルで、二次開発に最適

フィンランド語テキスト生成

言語モデルチューニング基盤

文脈意味理解

自然言語処理

チャットボット基盤モデル

指示チューニングによりフィンランド語対話システムに変換

テキスト自動生成

フィンランド語のニュース、ストーリーなどの一貫性あるテキスト生成

教育研究

言語モデル研究

フィンランド語NLP研究のベースラインモデルとして

TurkuNLPのフィンランド語GPT - 3モデルは、BLOOMアーキテクチャに基づく事前学習された単言語GPTスタイルの言語モデルのモデルファミリーです。これらのモデルは純粋な言語モデルであり、対話や質問応答のために命令微調整されていないことに注意してください。

これらのモデルは、例えば命令微調整されて現代的なチャットモデルとして機能する基礎モデルとして使用されることを想定しています。

すべてのモデルは3000億トークンで学習されています。

このモデルは、フィンランド語のテキスト生成に使用できる事前学習されたモデルです。基礎モデルとして、さらなる微調整が可能です。

モデル	レイヤー	次元	ヘッド	パラメータ
Small	12	768	12	1億8600万
Medium	24	1024	16	4億3700万
Large	24	1536	16	8億8100万
XL	24	2064	24	15億
”3B”	32	2560	32	28億
”8B”	32	4096	32	75億
"13B"	40	5120	40	133億

複数のフィンランド語リソースを組み合わせて使用しました。

データセット	文字数	比率	重み	重み付き比率
Parsebank	350億	16.9%	1.5	22.7%
mC4 - Fi	463億	22.4%	1.0	20.0%
CC - Fi	796億	38.5%	1.0	34.4%
Fiwiki	8億	0.4%	3.0	1.0%
Lönnrot	8億	0.4%	3.0	1.0%
Yle	16億	0.8%	2.0	1.4%
STT	22億	1.1%	2.0	1.9%
ePub	135億	6.5%	1.0	5.8%
Lehdet	58億	2.8%	1.0	2.5%
Suomi24	206億	9.9%	1.0	8.9%
Reddit - Fi	7億	0.4%	1.0	0.3%
合計	2070億	100.0%	N/A	100.0%