模型概述
模型特點
模型能力
使用案例
🚀 GPT2-base (gpt2-base-bne):基於西班牙國家圖書館數據訓練
GPT2-base-bne 是一個面向西班牙語的基於Transformer架構的模型。它基於GPT - 2模型,使用了截至目前已知的最大西班牙語語料庫進行預訓練,該語料庫來自西班牙國家圖書館2009年至2019年的網絡爬取數據,共處理了570GB的乾淨且去重的文本。
🚀 快速開始
你可以將原始模型用於文本生成,或對其進行微調以應用於下游任務。
✨ 主要特性
- 架構:gpt2-base
- 語言:西班牙語
- 任務:文本生成
- 數據:BNE
📦 安裝指南
暫未提及安裝相關命令,此部分跳過。
💻 使用示例
基礎用法
你可以直接使用管道進行文本生成。由於生成過程依賴一定的隨機性,我們設置一個種子以確保結果可復現:
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("La Biblioteca Nacional de España es una entidad pública y sus fines son", num_return_sequences=5)
[{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son difundir la cultura y el arte hispánico, así como potenciar las publicaciones de la Biblioteca y colecciones de la Biblioteca Nacional de España para su difusión e inquisición. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son diversos. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la publicación, difusión y producción de obras de arte español, y su patrimonio intelectual es el que tiene la distinción de Patrimonio de la Humanidad. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son los de colaborar en el mantenimiento de los servicios bibliotecarios y mejorar la calidad de la información de titularidad institucional y en su difusión, acceso y salvaguarda para la sociedad. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la conservación, enseñanza y difusión del patrimonio bibliográfico en su lengua específica y/o escrita. '}]
高級用法
以下是如何使用此模型在PyTorch中獲取給定文本的特徵:
>>> from transformers import AutoTokenizer, GPT2Model
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = GPT2Model.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> text = "La Biblioteca Nacional de España es una entidad pública y sus fines son"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 14, 768])
📚 詳細文檔
侷限性和偏差
在提交時,尚未採取措施來評估模型中嵌入的偏差和毒性。然而,我們深知由於語料庫是通過在多個網絡源上的爬取技術收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果完成,此模型卡片將進行更新。以下是模型可能產生有偏差預測的示例:
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("El hombre se dedica a", num_return_sequences=5)
[{'generated_text': 'El hombre se dedica a comprar armas a sus amigos, pero les cuenta la historia de las ventajas de ser "buenos y regulares en la vida" e ir "bien" por los pueblos. '},
{'generated_text': 'El hombre se dedica a la venta de todo tipo de juguetes durante todo el año y los vende a través de Internet con la intención de alcanzar una mayor rentabilidad. '},
{'generated_text': 'El hombre se dedica a la venta ambulante en plena Plaza Mayor. '},
{'generated_text': 'El hombre se dedica a los toros y él se dedica a los servicios religiosos. '},
{'generated_text': 'El hombre se dedica a la caza y a la tala de pinos. '}]
>>> set_seed(42)
>>> generator("La mujer se dedica a", num_return_sequences=5)
[{'generated_text': 'La mujer se dedica a comprar vestidos de sus padres, como su madre, y siempre le enseña el último que ha hecho en poco menos de un año para ver si le da tiempo. '},
{'generated_text': 'La mujer se dedica a la venta ambulante y su pareja vende su cuerpo desde que tenía uso del automóvil. '},
{'generated_text': 'La mujer se dedica a la venta ambulante en plena ola de frío. '},
{'generated_text': 'La mujer se dedica a limpiar los suelos y paredes en pueblos con mucha humedad. '},
{'generated_text': 'La mujer se dedica a la prostitución en varios locales de alterne clandestinos en Barcelona. '}]
訓練
訓練數據
西班牙國家圖書館 (Biblioteca Nacional de España) 每年對所有 .es 域名進行一次爬取。訓練語料庫由2009年至2019年這些爬取的59TB的WARC文件組成。
為了獲得高質量的訓練語料庫,語料庫經過了一系列操作的預處理,包括句子分割、語言檢測、過濾格式錯誤的句子以及去重重複內容等。在這個過程中,文檔邊界被保留。這產生了2TB的乾淨西班牙語語料庫。進一步對語料庫進行全局去重,最終得到570GB的文本。
語料庫的一些統計信息如下:
語料庫 | 文檔數量 | 標記數量 | 大小 (GB) |
---|---|---|---|
BNE | 201,080,084 | 135,733,450,668 | 570GB |
訓練過程
此架構使用的預訓練目標是下一個標記預測。 GPT2-base-bne 模型的配置如下:
- gpt2-base:12層,768隱藏層,12頭,1.17億參數。
訓練語料庫使用了原始 GPT - 2 模型中使用的字節版本的字節對編碼(BPE)進行標記化,詞彙量為50,262個標記。
GPT2-base-bne的預訓練包括一個自迴歸語言模型訓練,遵循GPT - 2的方法。
訓練總共持續了3天,使用了16個計算節點,每個節點配備4個16GB VRAM的NVIDIA V100 GPU。
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU) (bsc - temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至 <plantl - gob - es@bsc.es>
版權
版權歸西班牙數字化與人工智能國務秘書處(SEDIA)所有 (2022)
許可信息
本作品根據 [Apache許可證,版本2.0](https://www.apache.org/licenses/LICENSE - 2.0) 許可。
資金支持
本工作由西班牙數字化與人工智能國務秘書處(SEDIA)在Plan - TL框架內資助。
引用信息
如果您使用此模型,請引用我們的 論文:
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責聲明
點擊展開
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)向其他方部署或提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用這些模型帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者(SEDIA - 西班牙數字化與人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。
📄 許可證
本工作根據 [Apache許可證,版本2.0](https://www.apache.org/licenses/LICENSE - 2.0) 許可。



