🚀 BETO:西班牙版BERT
BETO是一個基於BERT模型在大型西班牙語文本語料庫上訓練得到的模型。它的規模與BERT-Base相近,並且採用了全詞掩碼(Whole Word Masking)技術進行訓練。下面為你提供了無大小寫區分和有大小寫區分版本的Tensorflow和Pytorch檢查點,以及BETO在西班牙語文本基準測試中的一些結果,並與多語言BERT以及其他(非基於BERT的)模型進行了比較。
📦 安裝指南
你可以從以下鏈接下載BETO模型的不同版本:
所有模型都使用了約31k個通過SentencePiece構建的BPE子詞的詞彙表,並進行了200萬步的訓練。
📊 基準測試
以下表格展示了BETO在各個任務的西班牙文版本中的一些測試結果。我們將BETO(有大小寫區分和無大小寫區分版本)與我們在文獻中找到的最佳多語言BERT結果(截至2019年10月)進行了比較。表格中還展示了其他針對相同任務的方法(不一定是基於BERT的方法)。所有方法的參考文獻可以在這裡找到。
任務 |
BETO有大小寫區分版 |
BETO無大小寫區分版 |
最佳多語言BERT |
其他結果 |
詞性標註(POS) |
98.97 |
98.44 |
97.10 [2] |
98.91 [6], 96.71 [3] |
命名實體識別(NER-C) |
88.43 |
82.67 |
87.38 [2] |
87.18 [3] |
MLDoc |
95.60 |
96.12 |
95.70 [2] |
88.75 [4] |
PAWS-X |
89.05 |
89.55 |
90.70 [8] |
|
XNLI |
82.01 |
80.15 |
78.50 [2] |
80.80 [5], 77.80 [1], 73.15 [4] |
💻 使用示例
關於如何使用BETO的更多詳細信息,你可以訪問🤗Huggingface Transformers庫,從快速入門部分開始瞭解。通過Transformers庫,可以簡單地以'dccuchile/bert-base-spanish-wwm-cased'
和'dccuchile/bert-base-spanish-wwm-uncased'
的方式訪問BETO模型。你可以在這個Colab筆記本中找到如何下載和使用本頁面模型的示例。(我們很快會為新手添加更詳細的西班牙語分步教程 😉)
🙏 致謝
我們感謝Adereso為訓練BETO無大小寫區分版提供的支持,以及千年數據基礎研究中心為訓練BETO有大小寫區分版提供的支持。同時,感謝谷歌通過TensorFlow研究雲項目給予我們的幫助。
📖 引用
西班牙預訓練BERT模型及評估數據
如果在出版物中引用此資源,請使用以下格式:
@inproceedings{CaneteCFP2020,
title={Spanish Pre-Trained BERT Model and Evaluation Data},
author={Cañete, José and Chaperon, Gabriel and Fuentes, Rodrigo and Ho, Jou-Hui and Kang, Hojin and Pérez, Jorge},
booktitle={PML4DC at ICLR 2020},
year={2020}
}
📄 許可證聲明
知識共享署名4.0國際許可協議(CC BY 4.0)最能體現我們對這項工作的意圖。然而,我們不確定用於訓練BETO的所有數據集是否都具有與CC BY 4.0兼容的許可證(特別是用於商業用途)。請自行斟酌使用,並確保原始文本資源的許可證符合你的需求。
📚 參考文獻