🚀 Legal_BERTimbau
Legal_BERTimbau Largeは、BERTimbau Largeをベースに微調整されたBERTモデルです。このモデルは、ポルトガル語の法的ドメインに適応した言語モデルを作成するために開発されまし。
🚀 クイックスタート
Legal_BERTimbauは、法的ドメインに特化したポルトガル語のBERTモデルです。以下のコードを使って、簡単にモデルを使用できます。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-base")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-base")
✨ 主な機能
- ドメイン適応:法的ドメインに特化した微調整が行われているため、法的文書に対する性能が向上しています。
- 多様なモデルサイズ:BaseとLargeの2種類のサイズが用意されており、用途に応じて選択できます。
📦 インストール
transformers
ライブラリを使用することで、簡単にモデルをインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-base")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-base")
高度な使用法
Masked language modeling prediction example
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-base")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-base")
pipe = pipeline('fill-mask', model=model, tokenizer=tokenizer)
pipe('O advogado apresentou [MASK] para o juíz')
For BERT embeddings
import torch
from transformers import AutoModel
model = AutoModel.from_pretrained('rufimelo/Legal-BERTimbau-base')
input_ids = tokenizer.encode('O advogado apresentou recurso para o juíz', return_tensors='pt')
with torch.no_grad():
outs = model(input_ids)
encoded = outs[0][0, 1:-1]
📚 ドキュメント
利用可能なモデル
モデル |
アーキテクチャ |
レイヤー数 |
パラメータ数 |
rufimelo/Legal-BERTimbau-base |
BERT-Base |
12 |
110M |
rufimelo/Legal-BERTimbau-large |
BERT-Large |
24 |
335M |
モデルの詳細
Legal_BERTimbau Largeは、BERTimbau Largeをベースに、オンラインで入手可能な30,000件のポルトガル語の法的文書を使って1エポックの事前学習を行った微調整モデルです。
🔧 技術詳細
言語モデルの性能は、学習データとテストデータのドメインが異なる場合に大きく変化することがあります。そのため、法的ドメインに適応したポルトガル語の言語モデルを作成するために、元のBERTimbauモデルに微調整を行いました。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
引用
このモデルを使用する場合は、BERTimbauの論文を引用してください。
@inproceedings{souza2020bertimbau,
author = {F{\'a}bio Souza and
Rodrigo Nogueira and
Roberto Lotufo},
title = {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese},
booktitle = {9th Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October 20-23 (to appear)},
year = {2020}
}