🚀 RiskData Brazilian Portuguese NER
このモデルは、ポルトガル語の固有表現抽出(NER)に特化したモデルです。Neuralmind BERTimbauをファインチューニングしており、ニュース記事に関する不正や腐敗に関連する固有表現を認識することができます。
🚀 クイックスタート
モデルの説明
これは、Neuralmind BERTimbau をポルトガル語用にファインチューニングしたバージョンです。
想定される用途と制限
使い方
from transformers import BertForTokenClassification, DistilBertTokenizerFast, pipeline
model = BertForTokenClassification.from_pretrained('monilouise/ner_pt_br')
tokenizer = DistilBertTokenizerFast.from_pretrained('neuralmind/bert-base-portuguese-cased'
, model_max_length=512
, do_lower_case=False
)
nlp = pipeline('ner', model=model, tokenizer=tokenizer, grouped_entities=True)
result = nlp("O Tribunal de Contas da União é localizado em Brasília e foi fundado por Rui Barbosa.")
制限とバイアス
- ファインチューニングされたモデルは、Googleニュースからクロールした約180のニュース記事のコーパスで学習されました。元のプロジェクトの目的は、不正や腐敗に関連するニュースの固有表現を認識し、これらのエンティティを4つのクラス(PERSON、ORGANIZATION、PUBLIC INSITUITION、LOCAL)に分類することでした。
学習手順
評価結果
精度(accuracy): 0.98
適合率(precision): 0.86
再現率(recall): 0.91
F1スコア(f1): 0.88
このスコアは以下のコードを使用して計算されました。
def align_predictions(predictions: np.ndarray, label_ids: np.ndarray) -> Tuple[List[int], List[int]]:
preds = np.argmax(predictions, axis=2)
batch_size, seq_len = preds.shape
out_label_list = [[] for _ in range(batch_size)]
preds_list = [[] for _ in range(batch_size)]
for i in range(batch_size):
for j in range(seq_len):
if label_ids[i, j] != nn.CrossEntropyLoss().ignore_index:
out_label_list[i].append(id2tag[label_ids[i][j]])
preds_list[i].append(id2tag[preds[i][j]])
return preds_list, out_label_list
def compute_metrics(p: EvalPrediction) -> Dict:
preds_list, out_label_list = align_predictions(p.predictions, p.label_ids)
return {
"accuracy_score": accuracy_score(out_label_list, preds_list),
"precision": precision_score(out_label_list, preds_list),
"recall": recall_score(out_label_list, preds_list),
"f1": f1_score(out_label_list, preds_list),
}
BibTeXエントリと引用情報
BERTimbau言語モデルの詳細については、以下を参照してください。
@inproceedings{souza2020bertimbau,
author = {Souza, F{\'a}bio and Nogueira, Rodrigo and Lotufo, Roberto},
title = {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese},
booktitle = {9th Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October 20-23 (to appear)},
year = {2020}
}
@article{souza2019portuguese,
title={Portuguese Named Entity Recognition using BERT-CRF},
author={Souza, F{\'a}bio and Nogueira, Rodrigo and Lotufo, Roberto},
journal={arXiv preprint arXiv:1909.10649},
url={http://arxiv.org/abs/1909.10649},
year={2019}
}
プロパティ |
詳細 |
言語 |
ポルトガル語 |
タグ |
ner |
評価指標 |
accuracy、precision、recall、f1 |