BETO開源西班牙語NLP模型 - 免費部署，支持多種西班牙語處理任務

Bert Base Spanish Wwm Uncased

由dccuchile開發

BETO是基於大型西班牙語語料庫訓練的BERT模型，支持區分大小寫和未區分大小寫兩種版本，適用於多種西班牙語NLP任務。

下載量 231.26k

發布時間 : 3/2/2022

模型概述

BETO是一個專門針對西班牙語優化的BERT模型，採用全詞掩碼技術訓練，適用於詞性標註、命名實體識別、文檔分類等任務。

全詞掩碼訓練

採用全詞掩碼技術訓練，提高了模型對西班牙語的理解能力

雙版本支持

提供區分大小寫和未區分大小寫兩種版本，適應不同應用場景

大規模訓練

基於31K BPE子詞單元，訓練步數達200萬次

西班牙語文本理解

詞性標註

命名實體識別

文檔分類

複述識別

自然語言推理

自然語言處理

西班牙語文檔分類

對西班牙語文檔進行自動分類

在MLDoc數據集上達到96.12%準確率

西班牙語命名實體識別

識別西班牙語文本中的人名、地名等實體

在CoNLL-2002數據集上達到88.43% F1分數

版本	TensorFlow權重	PyTorch權重	詞彙表和配置文件
BETO無大小寫區分版	tensorflow_weights	pytorch_weights	vocab, config
BETO有大小寫區分版	tensorflow_weights	pytorch_weights	vocab, config

任務	BETO有大小寫區分版	BETO無大小寫區分版	最佳多語言BERT	其他結果
詞性標註（POS）	98.97	98.44	97.10 [2]	98.91 [6], 96.71 [3]
命名實體識別（NER-C）	88.43	82.67	87.38 [2]	87.18 [3]
MLDoc	95.60	96.12	95.70 [2]	88.75 [4]
PAWS-X	89.05	89.55	90.70 [8]
XNLI	82.01	80.15	78.50 [2]	80.80 [5], 77.80 [1], 73.15 [4]