B

Bertugues Base Portuguese Cased

ricardozによって開発
BERTuguesはポルトガル語テキストで訓練されたBERTモデルで、オリジナルのBERT論文の事前訓練プロセスを厳密に遵守し、100万ステップの訓練を通じてマスク言語モデリングと次文予測タスクを完了しました。
ダウンロード数 92
リリース時間 : 8/7/2023

モデル概要

BERTuguesはポルトガル語に最適化されたBERTモデルで、トークナイザーと訓練データ品質の改善により、多くのポルトガル語NLPタスクで優れた性能を発揮します。

モデル特徴

最適化されたトークナイザー
ポルトガル語の稀な文字を除去し、高頻度の絵文字を追加することで、テキストが複数のトークンに分割される比率を大幅に低減
データ品質フィルタリング
Gopherモデルの論文で提案されたヒューリスティック手法を用いて、BrWACコーパスの品質フィルタリングを実施
性能優位性
多くのポルトガル語NLPタスクで同類モデルを凌駕し、一部のタスクではパラメータ数が3倍大きいモデルよりも優れた性能

モデル能力

マスク言語モデリング
文類似度計算
次文予測
テキスト特徴抽出
テキスト分類

使用事例

感情分析
ポルトガル語映画レビュー分類
BERTuguesで生成された文表現をランダムフォレスト分類器と組み合わせて感情分析を実施
IMDBポルトガル語版データセットでF1スコア84.0%を達成し、同類モデルを上回った
法律テキスト処理
法律テキスト主題分類
2つの法律テキストが同一主題に属するかどうかを判断
STJデータセットでF1スコア45.2%を達成し、Bertimbau-Largeモデルを上回った
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase