🚀 XLM-R base 英語の意味役割ラベリングでファインチューニング
このモデルは、英語のCoNLL形式のOntoNotes v5.0意味役割ラベリングデータでファインチューニングされた[xlm - roberta - base
](https://huggingface.co/xlm - roberta - base)です。これは、以下のモデルを生み出したプロジェクトの一部です。
✨ 主な機能
- 英語の意味役割ラベリングに特化したファインチューニング済みモデル。
- 複数の言語(多言語、ポルトガル語、英語)に対応。
- さまざまなモデルバリエーションが提供される。
🚀 クイックスタート
モデルの使用方法
このモデルのtransformers部分を使用するには、以下のコードを実行します。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("liaad/srl-en_xlmr-base")
model = AutoModel.from_pretrained("liaad/srl-en_xlmr-base")
完全なSRLモデル(transformers部分 + デコード層)を使用するには、プロジェクトのGitHubを参照してください。
📦 インストール
インストールに関する具体的な手順は、プロジェクトのGitHubを参照してください。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("liaad/srl-en_xlmr-base")
model = AutoModel.from_pretrained("liaad/srl-en_xlmr-base")
📚 ドキュメント
モデルの制限とバイアス
- このモデルにはTensorflowバージョンが含まれていません。これは、このモデルの"type_vocab_size"が(1から2に)変更されたため、Tensorflowに簡単に変換できないからです。
- モデルは5エポックのみトレーニングされました。
- 英語のデータはポルトガル語のデータに合わせて前処理されているため、役割の割り当てにいくつかの違いがあり、一部の役割はデータから削除されています。
トレーニング手順
モデルは、ポルトガル語のPropBank.Brデータに合わせて前処理されたCoNLL - 2012データセットでトレーニングされました。PropBank.Brデータセットと、より小さな意見データセット"Buscapé"でもテストされました。詳細については、添付の記事(以下のBibTeXエントリと引用情報を参照)とプロジェクトのGitHubを参照してください。
評価結果
モデル名 |
F1 CV PropBank.Br (ドメイン内) |
F1 Buscapé (ドメイン外) |
srl-pt_bertimbau-base |
76.30 |
73.33 |
srl-pt_bertimbau-large |
77.42 |
74.85 |
srl-pt_xlmr-base |
75.22 |
72.82 |
srl-pt_xlmr-large |
77.59 |
73.84 |
srl-pt_mbert-base |
72.76 |
66.89 |
srl-en_xlmr-base |
66.59 |
65.24 |
srl-en_xlmr-large |
67.60 |
64.94 |
srl-en_mbert-base |
63.07 |
58.56 |
srl-enpt_xlmr-base |
76.50 |
73.74 |
srl-enpt_xlmr-large |
78.22 |
74.55 |
srl-enpt_mbert-base |
74.88 |
69.19 |
ud_srl-pt_bertimbau-large |
77.53 |
74.49 |
ud_srl-pt_xlmr-large |
77.69 |
74.91 |
ud_srl-enpt_xlmr-large |
77.97 |
75.05 |
BibTeXエントリと引用情報
@misc{oliveira2021transformers,
title={Transformers and Transfer Learning for Improving Portuguese Semantic Role Labeling},
author={Sofia Oliveira and Daniel Loureiro and Alípio Jorge},
year={2021},
eprint={2101.01213},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルは、Apache - 2.0ライセンスの下で提供されています。