gpt2-medium-finnishオープンソースモデル - 無料で使用可能、高精度で高品質なフィンランド語テキストを生成！

ホーム

Gpt2 Medium Finnish

Finnish-NLPによって開発

大量のフィンランド語テキストで事前学習された3.45億パラメータのGPT - 2モデルで、フィンランド語テキスト生成に優れています。

大規模言語モデルその他オープンソースライセンス:Apache-2.0 #フィンランド語生成 #3.45億パラメータ #多ソースデータ事前学習

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

因果言語モデリングの目標で事前学習されたフィンランド語GPT - 2モデルで、テキスト生成または下流タスクの微調整に使用できます。

モデル特徴

純粋なフィンランド語最適化

フィンランド語の特性に特化して訓練され、84GBの選りすぐりのフィンランド語コーパスを使用しています。

中規模アーキテクチャ

GPT - 2 - mediumの設定は性能とリソース消費をバランスさせています。

多ソースデータ訓練

ニュース、百科事典、フォーラムなど6種類のフィンランド語データソースを統合しています。

モデル能力

フィンランド語テキスト生成

言語特徴抽出

テキスト続き生成

使用事例

コンテンツ作成

自動記事生成

冒頭の提示に基づいて首尾一貫したフィンランド語の記事段落を生成します。

教育支援

言語学習ツール

フィンランド語の学習用例文や穴埋め練習を生成します。

🚀 フィンランド語用GPT-2ミディアム

このモデルは、フィンランド語に対して因果言語モデリング（CLM）の目的で事前学習されたGPT-2ミディアムモデルです。GPT-2は、この論文で紹介され、このページで最初に公開されました。

注意: このモデルは、HuggingfaceのGPT-2ミディアム設定にある3億4500万パラメータのバリアントであり、OpenAIによる有名な15億パラメータの大規模バリアントではありません。また、より大きな7億7400万パラメータのバリアントであるgpt2-large-finnishも利用可能で、このモデルよりも性能が高くなっています。

✨ 主な機能

モデルの説明

フィンランド語版GPT-2は、自己教師付き学習方式で非常に大規模なフィンランド語データコーパスで事前学習されたトランスフォーマーモデルです。これは、人間が何らかの形でラベル付けを行わず、生のテキストのみを使用して事前学習されたことを意味します（このため、多くの公開データを利用できます）。具体的には、これらのテキストから入力とラベルを自動的に生成するプロセスを用いています。より正確には、文の次の単語を推測するように訓練されています。

より詳細には、入力は一定の長さの連続したテキストのシーケンスであり、ターゲットは同じシーケンスを1トークン（単語または単語の一部）右にシフトしたものです。モデルは内部的にマスクメカニズムを使用して、トークン i の予測が 1 から i までの入力のみを使用し、未来のトークンを使用しないようにしています。

このようにして、モデルはフィンランド語の内部表現を学習し、それを下流タスクに役立つ特徴抽出に利用することができます。ただし、モデルは事前学習したテキスト生成に最も適しています。

想定される用途と制限

生のモデルをテキスト生成に使用するか、下流タスクにファインチューニングすることができます。詳細については、モデルハブを参照してください。

制限とバイアス

このモデルの学習データには、インターネットからの多くの未フィルタリングのコンテンツが含まれており、中立的ではありません。したがって、モデルは偏った予測を行う可能性があります。このバイアスは、このモデルのすべてのファインチューニングバージョンにも影響を及ぼします。

すべての言語モデルと同様に、フィンランド語版GPT-2が特定のプロンプトにどのように反応するかを事前に予測することは困難であり、不快なコンテンツが突然出力される可能性があります。結果を公開する前に、人間が出力を選別またはフィルタリングすることをお勧めします。これにより、望ましくないコンテンツを削除し、結果の品質を向上させることができます。

📦 インストール

このセクションでは、インストールに関する具体的な手順が提供されていないため、省略します。

💻 使用例

基本的な使用法

このモデルを直接テキスト生成パイプラインで使用することができます。

>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='Finnish-NLP/gpt2-medium-finnish')
>>> generator("Teksti√§ tuottava teko√§ly on", max_length=30, num_return_sequences=5)

[{'generated_text': 'Teksti√§ tuottava teko√§ly on tullut ihmisten arkeen viime vuosina. Se auttaa hahmottamaan ja tulkitsemaan monimutkaisia kokonaisuuksia ja ilmi√∂it√§, joita ihmiset tekev√§t esimerkiksi ruokakaupassa'},
 {'generated_text': 'Teksti√§ tuottava teko√§ly on jo ottanut haltuunsa my√∂s ihmisten k√§ytt√§mi√§ sovelluksia ja esimerkiksi pankkipalveluita. Sen vuoksi teko√§ly on t√§rke√§ kumppani etenkin yritysten liiketoiminnan kehitt√§misess√§.-'},
 {'generated_text': 'Teksti√§ tuottava teko√§ly on teko√§lylle luonnollinen valinta, sill√§ sen avulla voi kommunikoida ihmisten kanssa hyvin pitk√§lle samalla tavalla kuin tietokoneiden kanssa. Se on kehittynyt muun'},
 {'generated_text': 'Teksti√§ tuottava teko√§ly on ihmisen kehitt√§m√§ teko√§ly, jota ei viel√§ ole pystytty rakentamaan. Teko√§ly kykenee toimimaan esimerkiksi matemaattisissa, tilastollisissa ja sosiaalisissa'},
 {'generated_text': 'Teksti√§ tuottava teko√§ly on jo niin iso juttu ettei sit√§ kannata rajoittaakaan. Ja jos se saadaan k√§ytt√∂√∂n, niin se voi jo pian syrj√§ytt√§√§ perinteisen'}]

高度な使用法

与えられたテキストの特徴を取得する方法を以下に示します。

PyTorchでの使用例

from transformers import GPT2Tokenizer, GPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('Finnish-NLP/gpt2-medium-finnish')
model = GPT2Model.from_pretrained('Finnish-NLP/gpt2-medium-finnish')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

TensorFlowでの使用例

from transformers import GPT2Tokenizer, TFGPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('Finnish-NLP/gpt2-medium-finnish')
model = TFGPT2Model.from_pretrained('Finnish-NLP/gpt2-medium-finnish', from_pt=True)
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 ドキュメント

学習データ

このフィンランド語版GPT-2モデルは、6つのデータセットの組み合わせで事前学習されています。

mc4_fi_cleaned：mC4データセットは、Common Crawlのウェブクロールコーパスの多言語版で、クリーニングされたものです。フィンランド語のサブセットを使用し、独自のテキストデータクリーニングコードでさらにクリーニングしました（データセットのリポジトリを参照）。
wikipedia：2021年8月のフィンランド語版ウィキペディアのサブセットを使用しました。
Yle Finnish News Archive 2011-2018
Yle Finnish News Archive 2019-2020
Finnish News Agency Archive (STT)
The Suomi24 Sentences Corpus

生のデータセットは、低品質および非フィンランド語の例をフィルタリングするためにクリーニングされました。これらのクリーニングされたデータセットを合わせると、約84GBのテキストになります。

学習手順

前処理

テキストは、バイトレベルのByte Pair Encoding（BPE）（ユニコード文字用）を使用してトークン化され、語彙サイズは50,257です。入力は512トークンの連続したシーケンスです。

事前学習

モデルは、Google TPU Research Cloudによって提供されるTPUv3-8 VM上で、360kステップ（1エポック強、バッチサイズ128）の間学習されました。使用されたオプティマイザはAdamWで、学習率は1e-4、学習率のウォームアップは4000ステップ、その後は学習率のコサイン減衰を使用しました。

評価結果

評価は、mc4_fi_cleanedデータセットの検証分割を使用し、Perplexity（スコアが小さいほど良い）を評価指標として行われました。以下の表からわかるように、このモデル（表の最初の行）は、より小さいgpt2-finnishモデルバリアントよりも性能が高いですが、より大きいgpt2-large-finnishモデルには勝てません。