GPT2 - スペイン語版オープンソース言語生成モデル - 大量のテキストを基に訓練され、地道なスペイン語内容を生成

ホーム

Gpt2 Spanish Medium

DeepESPによって開発

GPT2-スペイン語版は、11.5GBのスペイン語テキストを使用してゼロから訓練された言語生成モデルで、このために専用のバイトペアエンコーディング（BPE）トークナイザーを訓練しました。

大規模言語モデル複数言語対応オープンソースライセンス:MIT #スペイン語テキスト生成 #電子書籍コーパスの訓練 #専用BPEトークナイザー

ダウンロード数 221

リリース時間 : 3/2/2022

モデル概要

このモデルは、スペイン語テキストで訓練されたGPT - 2の中規模版で、主にスペイン語テキスト生成タスクに使用されます。

モデル特徴

専用に訓練されたスペイン語トークナイザー

トークナイザーは完全にスペイン語コーパスを基に訓練されており、英語のトークナイザーを使用することによる意味捕捉の制限を回避します。

豊富な訓練コーパス

11.5GBのスペイン語テキストを使用し、その中には3.5GBのウィキペディアと8GBの様々な書籍が含まれています。

新しい特殊マーカーの追加

標準の終了マーカーに加えて、'<|talk|>'などのマーカーを新たに追加し、後続の訓練での使用を容易にします。

モデル能力

スペイン語テキスト生成

長文生成（1024トークンのコンテキストをサポート）

使用事例

コンテンツ創作

小説の続き生成

与えられたスペイン語小説の冒頭に基づいて、後続の情節を生成します。

詩の創作

スペイン語の詩を生成します。

教育

言語学習支援

スペイン語学習教材や練習用テキストを生成します。

🚀 GPT2-Spanish

GPT2-Spanishは、11.5GBのスペイン語テキストを使ってゼロから学習された言語生成モデルです。このモデルは、その目的のために学習されたByte Pair Encoding (BPE) トークナイザーを使用しています。使用されるパラメータは、元のOpenAI GPT2モデルのミディアムバージョンと同じです。

🚀 クイックスタート

GPT2-Spanishは、スペイン語の言語生成に特化したモデルです。以下のセクションでは、このモデルの詳細について説明します。

✨ 主な機能

11.5GBのスペイン語テキストを使ってゼロから学習された言語生成モデル。
独自に学習されたByte Pair Encoding (BPE) トークナイザーを使用。
元のOpenAI GPT2モデルのミディアムバージョンと同じパラメータを使用。

📦 インストール

READMEにインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

READMEに使用例のコードが記載されていないため、このセクションをスキップします。

📚 ドキュメント

コーパス

このモデルは、11.5GBのテキストコーパスで学習されました。このコーパスは、3.5GBのウィキペディア記事と8GBの書籍（物語、短編小説、演劇、詩、エッセイ、普及書など）から構成されています。

トークナイザー

テキストは、Byte Pair Encoding (BPE) のバイトレベルバージョン（Unicode文字用）を使用してトークン化され、語彙サイズは50257です。入力は、1024の連続したトークンのシーケンスです。

このトークナイザーは、スペイン語コーパスを使ってゼロから学習されました。英語モデルのトークナイザーは、両言語の形態構文上の違いにより、スペイン語の意味関係を捉えるのに限界があることが明らかになったためです。

OpenAI GPT - 2モデルのテキスト終了用の特殊トークン "<|endoftext|>" の他に、トークン "<|talk|>"、"<|ax1|>"、"<|ax2|>" (...) "<|ax9|>" が含まれており、将来の学習でプロンプトとして使用できます。

学習

モデルとトークナイザーは、Google Colabサーバー上の16GBメモリのNvidia Tesla V100 GPUを使用して、Hugging Faceライブラリを使って学習されました。

作成者

このモデルは、スペイン語の自然言語処理に関するオープンソースコミュニティである -Deep ESP- のメンバーであるAlejandro Oñate Latorre（スペイン）とJorge Ortiz Fuentes（チリ）によって学習されました(https://t.me/joinchat/VoEp1bPrDYEexc6h)。

初期テストの資金提供に協力してくれたコミュニティのメンバーに感謝します。