模型简介
模型特点
模型能力
使用案例
🚀 GPT2-base (gpt2-base-bne):基于西班牙国家图书馆数据训练
GPT2-base-bne 是一个面向西班牙语的基于Transformer架构的模型。它基于GPT - 2模型,使用了截至目前已知的最大西班牙语语料库进行预训练,该语料库来自西班牙国家图书馆2009年至2019年的网络爬取数据,共处理了570GB的干净且去重的文本。
🚀 快速开始
你可以将原始模型用于文本生成,或对其进行微调以应用于下游任务。
✨ 主要特性
- 架构:gpt2-base
- 语言:西班牙语
- 任务:文本生成
- 数据:BNE
📦 安装指南
暂未提及安装相关命令,此部分跳过。
💻 使用示例
基础用法
你可以直接使用管道进行文本生成。由于生成过程依赖一定的随机性,我们设置一个种子以确保结果可复现:
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("La Biblioteca Nacional de España es una entidad pública y sus fines son", num_return_sequences=5)
[{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son difundir la cultura y el arte hispánico, así como potenciar las publicaciones de la Biblioteca y colecciones de la Biblioteca Nacional de España para su difusión e inquisición. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son diversos. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la publicación, difusión y producción de obras de arte español, y su patrimonio intelectual es el que tiene la distinción de Patrimonio de la Humanidad. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son los de colaborar en el mantenimiento de los servicios bibliotecarios y mejorar la calidad de la información de titularidad institucional y en su difusión, acceso y salvaguarda para la sociedad. '},
{'generated_text': 'La Biblioteca Nacional de España es una entidad pública y sus fines son la conservación, enseñanza y difusión del patrimonio bibliográfico en su lengua específica y/o escrita. '}]
高级用法
以下是如何使用此模型在PyTorch中获取给定文本的特征:
>>> from transformers import AutoTokenizer, GPT2Model
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = GPT2Model.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> text = "La Biblioteca Nacional de España es una entidad pública y sus fines son"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 14, 768])
📚 详细文档
局限性和偏差
在提交时,尚未采取措施来评估模型中嵌入的偏差和毒性。然而,我们深知由于语料库是通过在多个网络源上的爬取技术收集的,我们的模型可能存在偏差。我们打算在未来对这些领域进行研究,如果完成,此模型卡片将进行更新。以下是模型可能产生有偏差预测的示例:
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("El hombre se dedica a", num_return_sequences=5)
[{'generated_text': 'El hombre se dedica a comprar armas a sus amigos, pero les cuenta la historia de las ventajas de ser "buenos y regulares en la vida" e ir "bien" por los pueblos. '},
{'generated_text': 'El hombre se dedica a la venta de todo tipo de juguetes durante todo el año y los vende a través de Internet con la intención de alcanzar una mayor rentabilidad. '},
{'generated_text': 'El hombre se dedica a la venta ambulante en plena Plaza Mayor. '},
{'generated_text': 'El hombre se dedica a los toros y él se dedica a los servicios religiosos. '},
{'generated_text': 'El hombre se dedica a la caza y a la tala de pinos. '}]
>>> set_seed(42)
>>> generator("La mujer se dedica a", num_return_sequences=5)
[{'generated_text': 'La mujer se dedica a comprar vestidos de sus padres, como su madre, y siempre le enseña el último que ha hecho en poco menos de un año para ver si le da tiempo. '},
{'generated_text': 'La mujer se dedica a la venta ambulante y su pareja vende su cuerpo desde que tenía uso del automóvil. '},
{'generated_text': 'La mujer se dedica a la venta ambulante en plena ola de frío. '},
{'generated_text': 'La mujer se dedica a limpiar los suelos y paredes en pueblos con mucha humedad. '},
{'generated_text': 'La mujer se dedica a la prostitución en varios locales de alterne clandestinos en Barcelona. '}]
训练
训练数据
西班牙国家图书馆 (Biblioteca Nacional de España) 每年对所有 .es 域名进行一次爬取。训练语料库由2009年至2019年这些爬取的59TB的WARC文件组成。
为了获得高质量的训练语料库,语料库经过了一系列操作的预处理,包括句子分割、语言检测、过滤格式错误的句子以及去重重复内容等。在这个过程中,文档边界被保留。这产生了2TB的干净西班牙语语料库。进一步对语料库进行全局去重,最终得到570GB的文本。
语料库的一些统计信息如下:
语料库 | 文档数量 | 标记数量 | 大小 (GB) |
---|---|---|---|
BNE | 201,080,084 | 135,733,450,668 | 570GB |
训练过程
此架构使用的预训练目标是下一个标记预测。 GPT2-base-bne 模型的配置如下:
- gpt2-base:12层,768隐藏层,12头,1.17亿参数。
训练语料库使用了原始 GPT - 2 模型中使用的字节版本的字节对编码(BPE)进行标记化,词汇量为50,262个标记。
GPT2-base-bne的预训练包括一个自回归语言模型训练,遵循GPT - 2的方法。
训练总共持续了3天,使用了16个计算节点,每个节点配备4个16GB VRAM的NVIDIA V100 GPU。
附加信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU) (bsc - temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至 <plantl - gob - es@bsc.es>
版权
版权归西班牙数字化与人工智能国务秘书处(SEDIA)所有 (2022)
许可信息
本作品根据 [Apache许可证,版本2.0](https://www.apache.org/licenses/LICENSE - 2.0) 许可。
资金支持
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan - TL框架内资助。
引用信息
如果您使用此模型,请引用我们的 论文:
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免责声明
点击展开
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)向其他方部署或提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用这些模型带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者(SEDIA - 西班牙数字化与人工智能国务秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。
📄 许可证
本工作根据 [Apache许可证,版本2.0](https://www.apache.org/licenses/LICENSE - 2.0) 许可。



