🚀 BETO:西班牙版BERT
BETO是一个基于BERT模型在大型西班牙语文本语料库上训练得到的模型。它的规模与BERT-Base相近,并且采用了全词掩码(Whole Word Masking)技术进行训练。下面为你提供了无大小写区分和有大小写区分版本的Tensorflow和Pytorch检查点,以及BETO在西班牙语文本基准测试中的一些结果,并与多语言BERT以及其他(非基于BERT的)模型进行了比较。
📦 安装指南
你可以从以下链接下载BETO模型的不同版本:
所有模型都使用了约31k个通过SentencePiece构建的BPE子词的词汇表,并进行了200万步的训练。
📊 基准测试
以下表格展示了BETO在各个任务的西班牙文版本中的一些测试结果。我们将BETO(有大小写区分和无大小写区分版本)与我们在文献中找到的最佳多语言BERT结果(截至2019年10月)进行了比较。表格中还展示了其他针对相同任务的方法(不一定是基于BERT的方法)。所有方法的参考文献可以在这里找到。
任务 |
BETO有大小写区分版 |
BETO无大小写区分版 |
最佳多语言BERT |
其他结果 |
词性标注(POS) |
98.97 |
98.44 |
97.10 [2] |
98.91 [6], 96.71 [3] |
命名实体识别(NER-C) |
88.43 |
82.67 |
87.38 [2] |
87.18 [3] |
MLDoc |
95.60 |
96.12 |
95.70 [2] |
88.75 [4] |
PAWS-X |
89.05 |
89.55 |
90.70 [8] |
|
XNLI |
82.01 |
80.15 |
78.50 [2] |
80.80 [5], 77.80 [1], 73.15 [4] |
💻 使用示例
关于如何使用BETO的更多详细信息,你可以访问🤗Huggingface Transformers库,从快速入门部分开始了解。通过Transformers库,可以简单地以'dccuchile/bert-base-spanish-wwm-cased'
和'dccuchile/bert-base-spanish-wwm-uncased'
的方式访问BETO模型。你可以在这个Colab笔记本中找到如何下载和使用本页面模型的示例。(我们很快会为新手添加更详细的西班牙语分步教程 😉)
🙏 致谢
我们感谢Adereso为训练BETO无大小写区分版提供的支持,以及千年数据基础研究中心为训练BETO有大小写区分版提供的支持。同时,感谢谷歌通过TensorFlow研究云项目给予我们的帮助。
📖 引用
西班牙预训练BERT模型及评估数据
如果在出版物中引用此资源,请使用以下格式:
@inproceedings{CaneteCFP2020,
title={Spanish Pre-Trained BERT Model and Evaluation Data},
author={Cañete, José and Chaperon, Gabriel and Fuentes, Rodrigo and Ho, Jou-Hui and Kang, Hojin and Pérez, Jorge},
booktitle={PML4DC at ICLR 2020},
year={2020}
}
📄 许可证声明
知识共享署名4.0国际许可协议(CC BY 4.0)最能体现我们对这项工作的意图。然而,我们不确定用于训练BETO的所有数据集是否都具有与CC BY 4.0兼容的许可证(特别是用于商业用途)。请自行斟酌使用,并确保原始文本资源的许可证符合你的需求。
📚 参考文献