gpt2-large-bneオープンソースのスペイン語大規模言語モデル - スペイン語対話アプリを無料でサポート

ホーム

Gpt2 Large Bne

BSC-LTによって開発

Transformerアーキテクチャに基づくスペイン語大規模言語モデルで、スペイン国立図書館が2009 - 2019年に収集したウェブクローリングデータを使って訓練されました。

大規模言語モデル

Transformers

スペイン語オープンソースライセンス:Apache-2.0 #スペイン語大規模モデル #BNEコーパス訓練 #GPT2アーキテクチャ

ダウンロード数 162

リリース時間 : 3/2/2022

モデル概要

このモデルはスペイン語に特化して最適化されたGPT - 2 largeバージョンで、これまでで最大規模のスペイン語コーパスを使って事前学習されており、スペイン語のテキスト生成と理解タスクに適しています。

モデル特徴

大規模スペイン語訓練

スペイン国立図書館が2009 - 2019年に収集した570GBの高品質スペイン語コーパスを使って訓練されました。

専門的な前処理

コーパスは厳格な文分割処理、言語検出、低品質文のフィルタリング、内容の重複排除などの前処理工程を経ています。

高性能アーキテクチャ

GPT - 2 largeアーキテクチャに基づいており、強力なテキスト生成能力を持っています。

モデル能力

スペイン語テキスト生成

スペイン語テキスト理解

スペイン語言語モデリング

使用事例

自然言語処理

スペイン語テキスト自動生成

スペイン語の文法と習慣に合った連続したテキストを生成します。

スペイン語言語モデル研究

スペイン語NLP研究の基礎モデルとして使用されます。

🚀 GPT2-large （スペイン国立図書館（BNE）のデータで学習）

このモデルは、スペイン語用のTransformerベースのモデルです。スペイン国立図書館（BNE）から収集された大量のデータを用いて学習され、スペイン語の自然言語処理タスクに役立ちます。

🚀 クイックスタート

このセクションでは、このモデルの概要や利用方法について説明します。

✨ 主な機能

スペイン語に特化したGPT2-largeモデルです。
2009年から2019年までのスペイン国立図書館のクローリングデータを用いて学習されています。
高品質の学習コーパスを用いており、前処理によりデータの質を向上させています。

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

原READMEに使用例のコードが記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデルの説明

GPT2-large-bneは、スペイン語用のTransformerベースのモデルです。GPT - 2モデルをベースに、これまでに知られている最大のスペイン語コーパスを用いて事前学習されています。このコーパスは、2009年から2019年にかけてスペイン国立図書館（Biblioteca Nacional de España）が行ったウェブクローリングから収集され、合計570GBのクリーンで重複のないテキストが処理されています。

学習コーパスと前処理

スペイン国立図書館（Biblioteca Nacional de España）は、毎年一度、すべての.esドメインをクローリングしています。学習コーパスは、2009年から2019年に行われたこれらのクローリングから得られた59TBのWARCファイルで構成されています。

高品質の学習コーパスを得るために、コーパスは一連の操作のパイプラインで前処理されています。これには、文分割、言語検出、不適切な文のフィルタリング、繰り返し内容の重複排除などが含まれます。処理の間、ドキュメントの境界は維持されます。これにより、2TBのスペイン語のクリーンなコーパスが得られました。さらに、コーパス全体での重複排除が適用され、最終的に570GBのテキストが得られました。

コーパスのいくつかの統計情報を以下に示します。

コーパス	ドキュメント数	トークン数	サイズ (GB)
BNE	201,080,084	135,733,450,668	570GB

トークン化と事前学習

学習コーパスは、元のGPT - 2モデルで使用されているByte - Pair Encoding（BPE）のバイトバージョンを用いてトークン化されています。語彙サイズは50,262トークンです。GPT2-large-bneの事前学習は、GPT - 2のアプローチに従った自己回帰型言語モデルの学習で構成されています。学習は、それぞれ4つの16GB VRAMのNVIDIA V100 GPUを備えた32個のコンピューティングノードで合計10日間行われました。

評価と結果

評価の詳細については、私たちの[GitHubリポジトリ](https://github.com/PlanTL - SANIDAD/lm - spanish)をご覧ください。

引用

詳細については、私たちの論文をご覧ください：https://arxiv.org/abs/2107.07253

@misc{gutierrezfandino2021spanish,
      title={Spanish Language Models}, 
      author={Asier Gutiérrez - Fandiño and Jordi Armengol - Estapé and Marc Pàmies and Joan Llop - Palao and Joaquín Silveira - Ocampo and Casimiro Pio Carrino and Aitor Gonzalez - Agirre and Carme Armentano - Oller and Carlos Rodriguez - Penagos and Marta Villegas},
      year={2021},
      eprint={2107.07253},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}