モデル概要
モデル特徴
モデル能力
使用事例
🚀 スペイン国立図書館(BNE)のデータで学習されたGPT2-large
GPT2-large-bneは、スペイン語用のトランスフォーマーベースのモデルです。このモデルは、膨大なスペイン語コーパスを用いて事前学習されており、テキスト生成などのタスクに利用できます。
🚀 クイックスタート
目次
概要
- アーキテクチャ: gpt2-large
- 言語: スペイン語
- タスク: テキスト生成
- データ: BNE
モデルの説明
GPT2-large-bne は、スペイン語用のトランスフォーマーベースのモデルです。このモデルは GPT-2 モデルをベースに構築されており、2009年から2019年にかけて スペイン国立図書館 (Biblioteca Nacional de España) が収集したウェブクローリングデータから構成される、これまでに知られている最大のスペイン語コーパスを用いて事前学習されています。この作業のために、合計570GBのクリーンで重複のないテキストが処理されました。
想定される使用方法と制限事項
生のモデルをテキスト生成に使用するか、下流のタスクに微調整することができます。
使い方
このモデルの使い方は以下の通りです。
基本的な使用法
テキスト生成のパイプラインを使用して、このモデルを直接使用することができます。生成はランダム性に依存するため、再現性のためにシードを設定します。
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("La Biblioteca Nacional de España es una entidad pública y sus fines son", num_return_sequences=5)
[{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son servir como herramienta básica en la difusión de la cultura. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son el desarrollo de la educación, la cultura y el conocimiento, promoviendo actividades a través de Internet con la información que recibe del acceso a los fondos que en ella se almacenan. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la publicación y difusión cultural. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son preservar y difundir los fondos y colecciones de la Biblioteca Nacional, así como servir de punto de encuentro para toda la comunidad científica, la academia y para la sociedad civil. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la conservación, estudio y difusión del Patrimonio Bibliográfico en cualquiera de sus formas así como la formación y perfeccionamiento de los especialistas e investigadores en el campo de la información y de las bibliotecas.'}]
高度な使用法
与えられたテキストの特徴を取得する方法は以下の通りです。
>>> from transformers import AutoTokenizer, GPT2Model
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = GPT2Model.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> text = "La Biblioteca Nacional de España es una entidad pública y sus fines son"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 14, 1280])
制限事項とバイアス
提出時点では、モデルに埋め込まれたバイアスと毒性を推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからのクローリング技術を使用して収集されているため、モデルにバイアスがある可能性があることを十分に認識しています。将来的にこれらの分野での研究を行う予定であり、完了した場合はこのモデルカードが更新されます。それでも、モデルがバイアスのある予測を行う例を以下に示します。
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("El hombre se dedica a", num_return_sequences=5)
[{'generated_text': 'El hombre se dedica a comprar móviles a sus padres, pero les paga por ellos y luego les devuelve la pasta a ella. '},
{'generated_text': 'El hombre se dedica a la venta ambulante ilegal en la zona de la Alameda, con puestos del rastro callejero o de supermercados a los que luego roba. '},
{'generated_text': 'El hombre se dedica a la venta ambulante en el Paseo de Melilla. '},
{'generated_text': 'El hombre se dedica a los tatuajes y los dibujos en el cuerpo con su apariencia física y no da a basto en las tareas domésticas. '},
{'generated_text': 'El hombre se dedica a la caza indiscriminada de animales. '}]
>>> set_seed(42)
>>> generator("La mujer se dedica a", num_return_sequences=5)
[{'generated_text': 'La mujer se dedica a comprar móviles a sus padres, pero les paga por ellos y luego no paga la factura." '},
{'generated_text': 'La mujer se dedica a la venta ambulante y su pareja vende cupones en el mercadillo navideño. '},
{'generated_text': 'La mujer se dedica a la venta al por mayor de perfumes, cosmética, complementos, y otros bienes de consumo. '},
{'generated_text': 'La mujer se dedica a los servicios sexuales y se aprovecha de los servicios religiosos. '},
{'generated_text': 'La mujer se dedica a la prostitución y tiene dos hijas del matrimonio y la propia familia de la víctima. '}]
学習
学習データ
スペイン国立図書館 (Biblioteca Nacional de España) は、毎年一度、すべての .es ドメインをクロールします。学習コーパスは、2009年から2019年に行われたこれらのクロールからの59TBのWARCファイルで構成されています。
高品質な学習コーパスを取得するために、コーパスは、文分割、言語検出、不適切な文のフィルタリング、繰り返し内容の重複排除などの一連の操作で前処理されています。このプロセス中に、ドキュメントの境界は保持されます。これにより、2TBのクリーンなスペイン語コーパスが得られました。さらに、コーパス全体での重複排除が適用され、570GBのテキストが得られました。
コーパスのいくつかの統計情報は以下の通りです。
コーパス | ドキュメント数 | トークン数 | サイズ (GB) |
---|---|---|---|
BNE | 201,080,084 | 135,733,450,668 | 570GB |
学習手順
このアーキテクチャに使用される事前学習の目的は、次のトークン予測です。 GPT2-large-bne モデルの構成は以下の通りです。
- gpt2-large: 36層、1280隠れ層、20ヘッド、774Mパラメータ。
学習コーパスは、元の GPT-2 モデルで使用されているByte-Pair Encoding (BPE) のバイトバージョンを使用してトークン化されており、語彙サイズは50,262トークンです。
GPT2-large-bneの事前学習は、GPT-2のアプローチに従った自己回帰型言語モデルの学習で構成されています。
学習は、各ノードに16GB VRAMのNVIDIA V100 GPUが4つ搭載された32のコンピューティングノードで、合計10日間行われました。
追加情報
著者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細については、plantl-gob-es@bsc.es にメールを送信してください。
著作権
スペイン国のデジタル化と人工知能担当国務省 (SEDIA) による著作権 (2022)
ライセンス情報
この作品は Apache License, Version 2.0 の下でライセンスされています。
資金提供
この研究は、Plan-TLの枠組みの下で、スペイン国のデジタル化と人工知能担当国務省 (SEDIA) によって資金提供されました。
引用情報
このモデルを使用する場合は、私たちの 論文 を引用してください。
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責事項
クリックして展開
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルには、バイアスやその他の望ましくない歪みが含まれている可能性があります。
第三者が、これらのモデルのいずれかを使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、それらの使用に伴うリスクを軽減する責任があり、いずれの場合も、人工知能の使用に関する規制を含む適用可能な規制を遵守する必要があります。
いかなる場合も、モデルの所有者 (SEDIA – デジタル化と人工知能担当国務省) または作成者 (BSC – Barcelona Supercomputing Center) は、第三者がこれらのモデルを使用して生じる結果について責任を負いません。



