🚀 neuralmind/bert-base-portuguese-cased
このモデルは、ブラジルの立法案を、女性の権利にとって有利か不利かに分類するために調整されたモデルです。TransformerベースのBERTアーキテクチャを利用し、立法文書の内容を理解し、女性の権利に関する影響を評価します。
🚀 クイックスタート
このモデルは、ブラジルの立法案を女性の権利に関して分類するために特化しています。以下のセクションでは、モデルの詳細、使用方法、トレーニングデータなどについて説明します。
✨ 主な機能
- ブラジルの立法案(PLs)を女性の権利に対する有利・不利に分類します。
- BERTアーキテクチャを使用して、自然言語の理解を行います。
- 立法文書の分析、ジェンダー平等の擁護、政治・法律研究、自動文書分類などに応用できます。
📚 ドキュメント
モデルの説明
このモデルは、事前学習済みのneuralmind/bert-base-portuguese-casedモデルを調整したものです。ブラジルの立法案(PLs)を、その要約(ementa)と全文(inteiro teor)の内容に基づいて、女性の権利にとって有利または不利として分類するように特化しています。目的は、法的文脈におけるジェンダーの影響のニュアンスを理解することです。
モデルは、自然言語理解タスク向けに設計されたBERTアーキテクチャを使用しています。この特殊なタスクでの使用により、モデルは法律案が女性の権利とどのように一致するかを示すパターンや用語を識別することができます。
使用方法と制限
- 主な使用方法:ブラジルの立法案(PLs)を女性の権利に対する有利・不利に分類します。
- 対象ユーザー:政治科学者、ジャーナリスト、法律専門家、ジェンダー平等の擁護者、立法文書を分析する研究者、およびジェンダー公平の考慮に基づいて法的文書を分類する自動化システム。
- 適用分野:立法分析、ジェンダー平等の擁護、政治・法律研究、法的文書の自動分類
トレーニングと評価データ
モデルは、カスタムデータセットを使用して調整されました。このデータセットは、女性の権利に関連するテーマに焦点を当てたブラジルの立法案(PLs)で構成されており、要約(ementa)と全文(inteiro teor)の両方を含んでいます。
|
Precision |
Recall |
F1-Score |
Support |
Class 0 |
0.94 |
0.53 |
0.67 |
114 |
Class 1 |
0.35 |
0.88 |
0.50 |
33 |
Accuracy |
|
|
0.61 |
147 |
Macro Avg |
0.64 |
0.70 |
0.59 |
147 |
Weighted Avg |
0.81 |
0.61 |
0.64 |
147 |
モデルの評価に関する詳細情報は、プロジェクトリポジトリを参照してください。
トレーニングのハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 1e-05
- train_batch_size: 64
- eval_batch_size: 64
- seed: 5151
- optimizer: AdamW (PyTorch) 、betas=(0.9, 0.999) 、epsilon=1e-08(オプティマイザに追加の引数はなし)
- lr_scheduler_type: Linear
- lr_scheduler_warmup_steps: 150
- num_epochs: 19
トレーニング結果
Training Loss |
Epoch |
Step |
Validation Loss |
Accuracy |
F1 |
Recall |
Precision |
0.0801 |
1.0 |
18 |
0.0769 |
0.7411 |
0.4256 |
0.5 |
0.3705 |
0.0691 |
2.0 |
36 |
0.0709 |
0.75 |
0.4612 |
0.5172 |
0.8739 |
0.0647 |
3.0 |
54 |
0.0661 |
0.75 |
0.4612 |
0.5172 |
0.8739 |
0.0644 |
4.0 |
72 |
0.0648 |
0.6518 |
0.5774 |
0.5856 |
0.5753 |
0.0621 |
5.0 |
90 |
0.0632 |
0.7054 |
0.6424 |
0.6554 |
0.6367 |
0.0621 |
6.0 |
108 |
0.0627 |
0.7232 |
0.6265 |
0.6226 |
0.6319 |
0.0586 |
7.0 |
126 |
0.0595 |
0.75 |
0.6937 |
0.7079 |
0.6857 |
0.0547 |
8.0 |
144 |
0.0582 |
0.7768 |
0.7338 |
0.7597 |
0.7223 |
0.0509 |
9.0 |
162 |
0.0554 |
0.7768 |
0.7338 |
0.7597 |
0.7223 |
0.0462 |
10.0 |
180 |
0.0557 |
0.75 |
0.7091 |
0.7416 |
0.6998 |
0.0437 |
11.0 |
198 |
0.0532 |
0.7768 |
0.7382 |
0.7709 |
0.7264 |
0.0415 |
12.0 |
216 |
0.0515 |
0.7857 |
0.7466 |
0.7769 |
0.7341 |
0.0356 |
13.0 |
234 |
0.0545 |
0.8036 |
0.7547 |
0.7665 |
0.7461 |
0.0301 |
14.0 |
252 |
0.0543 |
0.8214 |
0.7770 |
0.7898 |
0.7675 |
0.0262 |
15.0 |
270 |
0.0541 |
0.8036 |
0.7594 |
0.7777 |
0.7481 |
0.0248 |
16.0 |
288 |
0.0583 |
0.8125 |
0.7584 |
0.7613 |
0.7557 |
0.0232 |
17.0 |
306 |
0.0593 |
0.8125 |
0.7635 |
0.7725 |
0.7562 |
フレームワークのバージョン
- Transformers: 4.47.0
- PyTorch: 2.5.1+cu121
- Datasets: 3.2.0
- Tokenizers: 0.21.0
倫理的な考慮事項
このモデルは立法文書を分類するために設計されており、社会的および政治的な影響をもたらす可能性があります。したがって、モデルの出力がどのように解釈され、使用されるかを、特に敏感なコンテキストでは慎重に考慮することが重要です。
モデルのトレーニングに使用されるデータセットは、定期的に見直して更新し、現在の立法言語とジェンダー平等の理解と闘いのパターンを反映するようにする必要があります。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。