🚀 POS-Tagger Portuguese
このプロジェクトでは、BERTimbau モデルを MacMorpho コーパスで10エポックにわたってファインチューニングし、品詞タガー(POS-Tagger)タスクを行いました。その結果、全体的なF1スコアが0.9826を達成しました。
🚀 クイックスタート
この品詞タガーは、ポルトガル語の文章に対して高精度な品詞タグ付けを行うことができます。以下に、モデルのメトリクス、パラメータ、およびタグの詳細を示します。
✨ 主な機能
- ポルトガル語の文章に対する高精度な品詞タグ付け
- モデルのメトリクスやパラメータを公開し、再現性を高める
📚 ドキュメント
メトリクス
Precision Recall F1 Suport
accuracy 0.98 33729
macro avg 0.96 0.95 0.95 33729
weighted avg 0.98 0.98 0.98 33729
F1: 0.9826 Accuracy: 0.9826
パラメータ
nclasses = 27
nepochs = 30
batch_size = 32
batch_status = 32
learning_rate = 1e-5
early_stop = 3
max_length = 200
タグ
タグ |
意味 |
ADJ |
形容詞 |
ADV |
副詞 |
ADV-KS |
従属接続副詞 |
ADV-KS-REL |
従属関係副詞 |
ART |
冠詞 |
CUR |
通貨 |
IN |
感嘆詞 |
KC |
並列接続詞 |
KS |
従属接続詞 |
N |
名詞 |
NPROP |
固有名詞 |
NUM |
数詞 |
PCP |
分詞 |
PDEN |
指示語 |
PREP |
前置詞 |
PROADJ |
形容詞的代名詞 |
PRO-KS |
従属接続代名詞 |
PRO-KS-REL |
従属関係接続代名詞 |
PROPESS |
人称代名詞 |
PROSUB |
名詞的代名詞 |
V |
動詞 |
VAUX |
助動詞 |
📄 ライセンス
READMEにライセンス情報は記載されていません。
🔗 引用方法
@article{
Schneider_postagger_2023,
place={Brasil},
title={Developing a Transformer-based Clinical Part-of-Speech Tagger for Brazilian Portuguese},
volume={15},
url={https://jhi.sbis.org.br/index.php/jhi-sbis/article/view/1086},
DOI={10.59681/2175-4411.v15.iEspecial.2023.1086},
abstractNote={<p>Electronic Health Records are a valuable source of information to be extracted by means of natural language processing (NLP) tasks, such as morphosyntactic word tagging. Although there have been significant advances in health NLP, such as the Transformer architecture, languages such as Portuguese are still underrepresented. This paper presents taggers developed for Portuguese texts, fine-tuned using BioBERtpt (clinical/biomedical) and BERTimbau (generic) models on a POS-tagged corpus. We achieved an accuracy of 0.9826, state-of-the-art for the corpus used. In addition, we performed a human-based evaluation of the trained models and others in the literature, using authentic clinical narratives. Our clinical model achieved 0.8145 in accuracy compared to 0.7656 for the generic model. It also showed competitive results compared to models trained specifically with clinical texts, evidencing domain impact on the base model in NLP tasks.</p>},
number={Especial}, journal={Journal of Health Informatics},
author={Schneider, Elisa Terumi Rubel and Gumiel, Yohan Bonescki and Oliveira, Lucas Ferro Antunes de and Montenegro, Carolina de Oliveira and Barzotto, Laura Rubel and Moro, Claudia and Pagano, Adriana and Paraiso, Emerson Cabrera},
year={2023},
month={jul.} }
❓ 質問がある場合
ポルトガル語のNLP品詞タガー のGitHubリポジトリにIssueを投稿してください。