BERTugues-base-portuguese-casedオープンソースモデル - ポルトガル語のテキスト処理と予測タスクをサポート

ホーム

Bertugues Base Portuguese Cased

ricardozによって開発

BERTuguesはポルトガル語テキストで訓練されたBERTモデルで、オリジナルのBERT論文の事前訓練プロセスを厳密に遵守し、100万ステップの訓練を通じてマスク言語モデリングと次文予測タスクを完了しました。

大規模言語モデルその他オープンソースライセンス:その他 #ポルトガル語BERT #法律テキスト分析 #絵文字サポート

ダウンロード数 92

リリース時間 : 8/7/2023

モデル概要

BERTuguesはポルトガル語に最適化されたBERTモデルで、トークナイザーと訓練データ品質の改善により、多くのポルトガル語NLPタスクで優れた性能を発揮します。

モデル特徴

最適化されたトークナイザー

ポルトガル語の稀な文字を除去し、高頻度の絵文字を追加することで、テキストが複数のトークンに分割される比率を大幅に低減

データ品質フィルタリング

Gopherモデルの論文で提案されたヒューリスティック手法を用いて、BrWACコーパスの品質フィルタリングを実施

性能優位性

多くのポルトガル語NLPタスクで同類モデルを凌駕し、一部のタスクではパラメータ数が3倍大きいモデルよりも優れた性能

モデル能力

マスク言語モデリング

文類似度計算

次文予測

テキスト特徴抽出

テキスト分類

使用事例

感情分析

ポルトガル語映画レビュー分類

BERTuguesで生成された文表現をランダムフォレスト分類器と組み合わせて感情分析を実施

IMDBポルトガル語版データセットでF1スコア84.0%を達成し、同類モデルを上回った

法律テキスト処理

法律テキスト主題分類

2つの法律テキストが同一主題に属するかどうかを判断

STJデータセットでF1スコア45.2%を達成し、Bertimbau-Largeモデルを上回った

🚀 BERTugues Base (aka "BERTugues-base-portuguese-cased")

BERTuguesは、ポルトガル語用に事前学習されたBERTモデルです。Masked Language Modeling (MLM) とNext Sentence Prediction (NSP) を目的として、大量のポルトガル語テキストを用いて訓練されています。

🚀 クイックスタート

BERTuguesは、BERTの元論文に沿って事前学習され、Masked Language Modeling (MLM) とNext Sentence Prediction (NSP) を100万ステップで行い、20GB以上のテキストを使用しています。詳細は公開された論文を参照してください。

✨ 主な機能

トークナイザの改善

ポルトガル語で使用されない文字の削除：Bertimbauでは、29794トークンのうち7000以上が東洋語や特殊文字を含んでいますが、BERTuguesではトークナイザの訓練前にこれらの文字を削除しています。
主要な絵文字の追加：Wikipediaのテキストには絵文字が少ないため、トークンに含まれる絵文字の数も少なくなっています。BERTuguesでは、トークナイザに主要な絵文字を追加しています。
BrWACテキストの品質フィルタリング：Gopherモデルの論文で提案されたヒューリスティックモデルに基づいて、BrWACのテキストを品質フィルタリングしています。

性能向上

モデル	IMDB (F1)	STJ (F1)	PJERJ (F1)	TJMS (F1)	平均F1
BERT Multilinguagem	72.0%	30.4%	63.8%	65.0%	57.8%
Bertimbau-Base	82.2%	35.6%	63.9%	71.2%	63.2%
Bertimbau-Large	85.3%	43.0%	63.8%	74.0%	66.5%
BERTugues-Base	84.0%	45.2%	67.5%	70.0%	66.7%

BERTuguesは、Bertimbau-baseに比べて4つのタスクのうち3つで優れており、Bertimbau-Large（パラメータが3倍多く、計算コストが高いモデル）に比べて4つのタスクのうち2つで優れています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

マスクされた単語の予測 (Masked Language Modeling)

from transformers import BertTokenizer, BertForMaskedLM, pipeline

model = BertForMaskedLM.from_pretrained("ricardoz/BERTugues-base-portuguese-cased")
tokenizer = BertTokenizer.from_pretrained("ricardoz/BERTugues-base-portuguese-cased", do_lower_case=False)

pipe = pipeline('fill-mask', model=model, tokenizer=tokenizer, top_k = 3)
pipe('[CLS] Eduardo abriu os [MASK], mas não quis se levantar. Ficou deitado e viu que horas eram.')

# [{'score': 0.7272418141365051,
#   'token': 7292,
#   'token_str': 'olhos',
#   'sequence': 'Eduardo abriu os olhos, mas não quis se levantar. Ficou deitado e viu que horas eram.'},
#  {'score': 0.2677205801010132,
#   'token': 12761,
#   'token_str': 'braços',
#   'sequence': 'Eduardo abriu os braços, mas não quis se levantar. Ficou deitado e viu que horas eram.'},
#  {'score': 0.0007434834260493517,
#   'token': 24298,
#   'token_str': 'óculos',
#   'sequence': 'Eduardo abriu os óculos, mas não quis se levantar. Ficou deitado e viu que horas eram.'}]

文章の埋め込みの作成

from transformers import BertTokenizer, BertModel, pipeline
import torch

model = BertModel.from_pretrained("ricardoz/BERTugues-base-portuguese-cased")
tokenizer = BertTokenizer.from_pretrained("ricardoz/BERTugues-base-portuguese-cased", do_lower_case=False)

input_ids = tokenizer.encode('[CLS] Eduardo abriu os olhos, mas não quis se levantar. Ficou deitado e viu que horas eram.', return_tensors='pt')

with torch.no_grad():
    last_hidden_state = model(input_ids).last_hidden_state[:, 0]

last_hidden_state
	
# tensor([[-1.5727e+00,  5.4707e-01, -2.6169e-01, -3.0714e-01, -9.4545e-01,
#           4.1557e-01, -7.9884e-01, -2.1481e-01,  5.9792e-01, -1.4198e+00,
#           1.1929e-01,  8.0228e-01,  5.4977e-01,  1.2710e+00, -2.9444e-01,
#           1.3398e+00,  1.4413e-01,  8.2983e-01, -8.2349e-02,  1.8593e-01,

📚 ドキュメント

BERTuguesの詳細な情報については、GitHubリポジトリを参照してください。

🔧 技術詳細

このREADMEには具体的な技術詳細が記載されていないため、このセクションをスキップします。

📄 ライセンス

このモデルのライセンスは"other"です。

引用

もしあなたがBERTuguesを論文や出版物で使用する場合は、以下のように引用してください。

@article{Zago2024bertugues,
	title   = {BERTugues: A Novel BERT Transformer Model Pre-trained for Brazilian Portuguese},
	volume  = {45},
    url     = {https://ojs.uel.br/revistas/uel/index.php/semexatas/article/view/50630},
	DOI     = {10.5433/1679-0375.2024.v45.50630},
	journal = {Semina: Ciências Exatas e Tecnológicas},
	author  = {Mazza Zago, Ricardo and Agnoletti dos Santos Pedotti, Luciane},
	year    = {2024},
	month   = {Dec.},
	pages   = {e50630}
}