gpt2-medium-dutch-embeddingsオープンソースオランダ語モデル - オランダ語のテキスト処理ニーズに適合

ホーム

Gpt2 Medium Dutch Embeddings

GroNLPによって開発

GPT-2中規模版を基にしたオランダ語モデルで、語彙埋め込み層のみ再学習されてオランダ語に適応しています。

大規模言語モデルその他#オランダ語生成 #語彙埋め込み適応 #中規模GPT-2

ダウンロード数 27

リリース時間 : 3/2/2022

モデル概要

このモデルは語彙埋め込み層を再学習することで、英語GPT-2モデルをオランダ語版に適応させ、元のTransformer層の重みを保持しています。

モデル特徴

語彙埋め込み適応

語彙埋め込み層のみを再学習し、モデルをオランダ語語彙に適応させつつ、元のTransformer層の重みを保持します。

モデルリサイクル

ゼロから訓練するのではなく語彙層を再訓練することで、既存の事前訓練モデルのパラメータを効果的に活用します。

中規模

GPT-2の中規模版（gpt2-medium）を基にしており、より強力な言語理解能力を提供します。

モデル能力

オランダ語テキスト生成

言語モデルファインチューニングの基礎

使用事例

自然言語処理

オランダ語テキスト生成

一貫性のあるオランダ語テキストを生成

下流タスクのファインチューニング

オランダ語NLPタスクのファインチューニング用ベースモデルとして使用

🚀 オランダ語用に再利用されたGPT - 2（ミディアム、適応型語彙埋め込み）

このモデルは、OpenAIのミディアムサイズのGPT - 2モデルをベースに、オランダ語用に再利用されたものです。語彙埋め込みを適応させることで、オランダ語のテキスト生成に特化しています。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

基本的な使用法

from transformers import pipeline

pipe = pipeline("text-generation", model="GroNLP/gpt2-medium-dutch-embeddings")

高度な使用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("GroNLP/gpt2-medium-dutch-embeddings")
model = AutoModel.from_pretrained("GroNLP/gpt2-medium-dutch-embeddings")  # PyTorch
model = TFAutoModel.from_pretrained("GroNLP/gpt2-medium-dutch-embeddings")  # Tensorflow

✨ 主な機能

このモデルは、ミディアムサイズのOpenAI GPT - 2（gpt2-medium）モデルをベースにしています。
Transformer層の重みは元の英語モデルと同じですが、語彙層はオランダ語の語彙に合わせて再学習されています。

📚 ドキュメント

モデルの説明

このモデルは、ミディアムサイズのOpenAI GPT - 2（gpt2-medium）モデルをベースに構築されています。Transformer層の重みは元の英語モデルと同一ですが、語彙層はオランダ語の語彙に合わせて再学習されています。詳細については、arXivの論文とGithubのコードを参照してください。

📄 ライセンス

BibTeX引用

@misc{devries2020good,
      title={As good as new. How to successfully recycle English GPT-2 to make models for other languages}, 
      author={Wietse de Vries and Malvina Nissim},
      year={2020},
      eprint={2012.05628},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}