🚀 基于西班牙国家图书馆(BNE)数据训练的Longformer基础模型
本模型是基于西班牙国家图书馆的数据训练的Longformer基础模型,能够处理更长的上下文输入,为西班牙语的语言处理任务提供了强大的支持。
🚀 快速开始
模型使用示例
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model = AutoModelForMaskedLM.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Hay base legal dentro del marco <mask> actual."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])
✨ 主要特性
- 处理长上下文:使用Longformer架构,结合滑动窗口(局部)注意力和全局注意力,无需额外的聚合策略即可处理更大的上下文输入。
- 可微调性:可在问答、文本分类或命名实体识别等非生成性下游任务上进行微调。
📚 详细文档
模型描述
longformer-base-4096-bne-es 是西班牙语 roberta-base-bne 掩码语言模型的 Longformer 版本。这些模型的使用使我们能够处理更大的上下文作为输入,而无需额外的聚合策略。该模型从 roberta-base-bne 检查点开始,并在来自西班牙国家图书馆的长文档上进行了MLM预训练。
Longformer模型使用了滑动窗口(局部)注意力和全局注意力的组合。全局注意力可根据任务进行用户配置,以使模型学习特定任务的表示。有关如何设置全局注意力的更多详细信息,请参考原始 论文。
有关语料库、预训练和评估的更多详细信息,请查看官方 仓库。
预期用途和限制
longformer-base-4096-bne-es 模型仅适用于掩码语言建模以执行填空任务(尝试推理API或阅读下一部分)。
但是,它旨在在问答、文本分类或命名实体识别等非生成性下游任务上进行微调。
局限性和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差和毒性。然而,我们清楚地知道,由于语料库是使用爬虫技术从多个网络源收集的,我们的模型可能存在偏差。我们打算在未来对这些领域进行研究,如果完成,此模型卡片将进行更新。
训练
训练语料库和预处理
西班牙国家图书馆 (Biblioteca Nacional de España) 每年对所有 .es 域名进行一次爬取。训练语料库由2009年至2019年进行的这些爬取的59TB WARC文件组成。
为了获得高质量的训练语料库,语料库经过了一系列操作的预处理,包括句子分割、语言检测、过滤格式错误的句子以及重复内容的去重。在此过程中,文档边界得以保留。这产生了2TB的西班牙语清洁语料库。进一步对语料库进行全局去重,得到了570GB的文本。
语料库的一些统计信息如下:
语料库 |
文档数量 |
标记数量 |
大小 (GB) |
BNE |
201,080,084 |
135,733,450,668 |
570GB |
对于这个Longformer模型,我们使用了一个7.2GB的小随机分区作为训练分割,其中包含少于4096个标记的文档。
分词和预训练
训练语料库使用了原始 RoBERTA 模型中使用的字节版本的字节对编码(BPE)进行分词,词汇表大小为50,262个标记。RoBERTa-base-bne的预训练包括一个掩码语言模型训练,遵循RoBERTa基础模型采用的方法。训练总共持续了40小时,使用了8个计算节点,每个节点配备2个32GB VRAM的AMD MI50 GPU。
评估
在下游任务上进行微调时,该模型取得了以下性能:
数据集 |
指标 |
Longformer-base |
MLDoc |
F1 |
0.9608 |
CoNLL-NERC |
F1 |
0.8757 |
CAPITEL-NERC |
F1 |
0.8985 |
PAWS-X |
F1 |
0.8878 |
UD-POS |
F1 |
0.9903 |
CAPITEL-POS |
F1 |
0.9853 |
SQAC |
F1 |
0.8026 |
STS |
综合指标 |
0.8338 |
XNLI |
准确率 |
0.8210 |
附加信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc - temu@bsc.es)
联系信息
如需进一步信息,请发送电子邮件至 <plantl - gob - es@bsc.es>
版权
版权归西班牙数字化和人工智能国务秘书处(SEDIA)所有(2022年)
许可信息
Apache许可证,版本2.0
资金支持
这项工作由西班牙数字化和人工智能国务秘书处(SEDIA)在Plan - TL框架内资助。
免责声明
本仓库中发布的模型具有通用用途,可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或使用基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为模型的用户时,他们应注意减轻使用这些模型带来的风险是他们的责任,并且在任何情况下都应遵守适用的法规,包括有关人工智能使用的法规。
在任何情况下,模型的所有者(SEDIA - 西班牙数字化和人工智能国务秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型产生的任何结果负责。