BETO（bert-base-spanish-wwm-cased）オープンソースモデル - 複数のスペイン語NLPタスクをサポート

Bert Base Spanish Wwm Cased

Developed by dccuchile

BETOは大規模なスペイン語コーパスを基に訓練されたBERTモデルで、大文字小文字を区別するバージョンと区別しないバージョンがあり、様々なスペイン語NLPタスクに適しています。

Downloads 61.43k

Release Time : 3/2/2022

Model Overview

BETOはスペイン語に特化して最適化されたBERTモデルで、全単語マスキング技術を用いて訓練され、品詞タグ付けや固有表現認識などのタスクで優れた性能を発揮します。

全単語マスキング訓練

Whole Word Masking技術を採用し、モデルのスペイン語理解能力を向上させます

2種類のバージョンサポート

大文字小文字を区別するバージョンと区別しないバージョンの2種類を提供し、異なるアプリケーションシーンに対応します

大規模訓練

31K BPEサブワード語彙表を基に、200万ステップ訓練します

複数フレームワークサポート

TensorFlowとPyTorchの2種類のフレームワークの事前学習済み重みを提供します

スペイン語テキスト理解

品詞タグ付け

固有表現認識

文書分類

テキスト复述検出

クロスランゲージ推論

自然言語処理

スペイン語文書分類

スペイン語のニュース、記事などを自動分類します

MLDocデータセットで96.12%の正解率を達成しました

スペイン語固有表現認識

スペイン語テキスト中の人名、地名などのエンティティを識別します

CoNLL - 2002データセットで88.43%のF1スコアを達成しました

クロスランゲージアプリケーション

クロスランゲージ推論

スペイン語と他の言語間の推論タスクを処理します

XNLIデータセットで82.01%の正解率を達成しました


BETO（大文字小文字を区別しない）	tensorflow_weights	pytorch_weights	語彙, 設定
BETO（大文字小文字を区別する）	tensorflow_weights	pytorch_weights	語彙, 設定

タスク	BETO（大文字小文字を区別する）	BETO（大文字小文字を区別しない）	最良のMultilingual BERT	他の結果
品詞タグ付け（POS）	98.97	98.44	97.10 [2]	98.91 [6], 96.71 [3]
固有表現抽出（NER-C）	88.43	82.67	87.38 [2]	87.18 [3]
MLDoc	95.60	96.12	95.70 [2]	88.75 [4]
PAWS-X	89.05	89.55	90.70 [8]
XNLI	82.01	80.15	78.50 [2]	80.80 [5], 77.80 [1], 73.15 [4]