🚀 LegalBert-pt
LegalBert-ptは、ポルトガル語で法的ドメイン向けの言語モデルです。このモデルは、ドメインに特化した知識を獲得するために事前学習され、その後、特定のタスクに合わせて調整することができます。モデルには2つのバージョンがあり、1つはBERTimbauモデルを補完するもので、もう1つはゼロから構築されたものです。BERTimbauをベースにしたモデルの有効性は、モデルの困惑度を分析することで明らかになりました。また、法的エンティティの識別や法的請願の分類などのタスクでも実験が行われました。結果から、特定の言語モデルを使用すると、すべてのタスクで汎用的な言語モデルを使用した場合よりも優れた結果が得られることが示されており、法的ドメイン向けの言語モデルの特化が学習アルゴリズムの精度向上に重要な要素であることが示唆されています。
🚀 クイックスタート
LegalBert-ptは、ポルトガル語の法的ドメインに特化した言語モデルです。事前学習を経てドメイン知識を獲得し、特定のタスクに調整可能です。
✨ 主な機能
- 法的ドメインに特化した事前学習モデルです。
- 法的エンティティの識別や法的請願の分類などのタスクに有効です。
- 汎用的な言語モデルよりも高い精度を達成します。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコードでインストールできます。
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')
📚 ドキュメント
利用可能なモデル
Property |
Details |
Model Type |
LegalBert-pt SC、LegalBert-pt FP |
Initial model |
LegalBert-pt SC:なし、LegalBert-pt FP:neuralmind/bert-base-portuguese-cased |
#Layers |
12 |
#Params |
110M |
データセット
LegalBert-pt言語モデルのさまざまなバージョンを事前学習するために、10のブラジルの裁判所から合計150万件のポルトガル語の法的文書を収集しました。これらの文書は、最初の請願書、請願書、判決、判決文の4種類で構成されています。表には、これらの文書の分布が示されています。
データは、ブラジル国立司法評議会(CNJ)のCodexシステムから取得されました。このシステムは、ブラジルポルトガル語で最も大規模かつ多様な法的テキストのセットを保持しています。この記事の著者である研究者との協定の一環として、CNJはこれらのデータを研究に提供しました。
データソース |
文書数 |
% |
セアラ州高等裁判所 |
80,504 |
5.37% |
ピアウイ州高等裁判所 |
90,514 |
6.03 |
リオデジャネイロ州高等裁判所 |
33,320 |
2.22 |
ロンドニア州高等裁判所 |
971,615 |
64.77 |
第3地区連邦地方裁判所 |
70,196 |
4.68 |
第5地区連邦地方裁判所 |
6,767 |
0.45 |
第9地区地方労働裁判所 |
16,133 |
1.08 |
第11地区地方労働裁判所 |
5,351 |
0.36 |
第13地区地方労働裁判所 |
155,567 |
10.37 |
第23地区地方労働裁判所 |
70,033 |
4.67 |
合計 |
1,500,000 |
100.00% |
💻 使用例
基本的な使用法
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')
📄 ライセンス
このモデルはOpenRailライセンスの下で提供されています。
📚 引用
Raquel Silveira, Caio Ponte, Vitor Almeida, Vládia Pinheiro, and Vasco Furtado. 2023. LegalBert-pt: A Pretrained Language Model for the Brazilian Portuguese Legal Domain. In Intelligent Systems: 12th Brazilian Conference, BRACIS 2023, Belo Horizonte, Brazil, September 25–29, 2023, Proceedings, Part III. Springer-Verlag, Berlin, Heidelberg, 268–282. https://doi.org/10.1007/978-3-031-45392-2_18