イタリア語 - 法律 - BERTオープンソース法律分野モデル - イタリア語の法的テキストの処理に特化して開発

ホーム

Italian Legal BERT

dlicariによって開発

イタリア語XXL BERTモデルを基盤とし、国家司法アーカイブ3.7GBの前処理済みテキストで追加事前訓練を行った法分野特化モデル

大規模言語モデル

Transformers

その他#イタリア法律文書処理 #法的実体認識 #事前学習言語モデル

ダウンロード数 1,511

リリース時間 : 7/16/2022

モデル概要

イタリア法分野向け事前学習Transformer言語モデルで、民法関連タスクにおいて汎用イタリア語BERTを上回る性能

モデル特徴

法分野最適化

3.7GBのイタリア法律テキストでの追加事前訓練により、法律用語の理解処理能力が大幅向上

マルチタスク対応

法律文書分類、実体認識、意味的類似度計算など多様な下流タスクに適用可能

派生バージョン豊富

スクラッチ訓練版、蒸留版、長文処理版など複数バリエーションを提供し、様々なシナリオに対応

モデル能力

法律文書理解

法的実体認識

法律文書分類

法的意味的類似度計算

法律文書予測埋め

使用事例

司法文書処理

法律文書キー情報抽出

判決文から当事者、訴訟請求などの重要情報を自動認識

汎用モデルより精度が顕著に向上

法律文書類似度分析

異なる法律文書の内容類似度を比較

事例検索や判例分析を効果的に支援

法律AIアシスタント

法律相談自動応答

法律知識ベースに基づく初動相談アドバイス生成

専門用語を正確に含む法的表現を提供

🚀 ITALIAN-LEGAL-BERT: イタリア法律向け事前学習済みTransformer言語モデル

ITALIAN-LEGAL-BERTは、イタリア民法コーパスでイタリア語のBERTモデルを追加で事前学習した、bert-base-italian-xxl-casedに基づくモデルです。様々なドメイン固有のタスクにおいて、「汎用的な」イタリア語のBERTよりも良い結果を達成します。

🚀 クイックスタート

ITALIAN-LEGAL-BERTは、イタリア語の法律文書に特化した事前学習済みモデルです。以下の手順で簡単に使用できます。

✨ 主な機能

イタリア民法コーパスで追加事前学習されているため、法律関連のタスクで高い性能を発揮します。
複数のバリアントが用意されており、長文ドキュメントやゼロからの事前学習など、様々なニーズに対応しています。

📦 インストール

このモデルはHugging FaceのTransformersライブラリを使用してロードできます。以下のコードを実行してください。

from transformers import AutoModel, AutoTokenizer
model_name = "dlicari/Italian-Legal-BERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

💻 使用例

基本的な使用法

from transformers import AutoModel, AutoTokenizer
model_name = "dlicari/Italian-Legal-BERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

高度な使用法

Transformersライブラリのfill-maskパイプラインを使用して、推論を行うことができます。

from transformers import pipeline
model_name = "dlicari/Italian-Legal-BERT"
fill_mask = pipeline("fill-mask", model_name)
fill_mask("Il [MASK] ha chiesto revocarsi l'obbligo di pagamento")
#[{'sequence': "Il ricorrente ha chiesto revocarsi l'obbligo di pagamento",'score': 0.7264330387115479},
# {'sequence': "Il convenuto ha chiesto revocarsi l'obbligo di pagamento",'score': 0.09641049802303314},
# {'sequence': "Il resistente ha chiesto revocarsi l'obbligo di pagamento",'score': 0.039877112954854965},
# {'sequence': "Il lavoratore ha chiesto revocarsi l'obbligo di pagamento",'score': 0.028993653133511543},
# {'sequence': "Il Ministero ha chiesto revocarsi l'obbligo di pagamento", 'score': 0.025297977030277252}]

また、このCOLAB: ITALIAN-LEGAL-BERT: Minimal Start for Italian Legal Downstream Tasksでは、文の類似度、文の分類、固有表現抽出などのタスクでの使用方法が紹介されています。

https://colab.research.google.com/drive/1ZOWaWnLaagT_PX6MmXMP2m3MAOVXkyRK?usp=sharing

📚 ドキュメント

モデルのバリアント

- FROM SCRATCH：CamemBERTアーキテクチャに基づき、イタリア語の法律文書でゼロから事前学習されたITALIAN-LEGAL-BERTのバリアントです（ITA-LEGAL-BERT-SC）。
- DISTILLED：ITALIAN-LEGAL-BERTの蒸留バージョンです（ DISTIL-ITA-LEGAL-BERT）。
- 長文ドキュメント用 - [LSG ITA LEGAL BERT](https://huggingface.co/dlicari/lsg16k-Italian-Legal-BERT)：ITALIAN-LEGAL-BERTのLocal-Sparse-Globalバージョン（追加事前学習済み） - [LSG ITA LEGAL BERT-SC](https://huggingface.co/dlicari/lsg16k-Italian-Legal-BERT-SC)：ITALIAN-LEGAL-BERT-SCのLocal-Sparse-Globalバージョン（ゼロから事前学習）

学習手順

ITALIAN-LEGAL-BERTは、ITALIAN XXL BERTで初期化され、国立判例アーカイブからの3.7GBの前処理済みテキストでさらに4エポック事前学習されました。使用したパラメータは以下の通りです。

アーキテクチャ：BERT
オプティマイザ：AdamW
初期学習率：5e-5（線形学習率減衰、最終値2.525e-9）
シーケンス長：512
バッチサイズ：10（GPU容量により制限）
学習ステップ数：840万
デバイス：1*GPU V100 16GB

📄 ライセンス

このモデルはAFL-3.0ライセンスの下で提供されています。

📚 引用

もしこのリソースや論文が役に立った場合は、以下の引用をあなたの論文に含めてください。

@inproceedings{licari_italian-legal-bert_2022,
	address = {Bozen-Bolzano, Italy},
	series = {{CEUR} {Workshop} {Proceedings}},
	title = {{ITALIAN}-{LEGAL}-{BERT}: {A} {Pre}-trained {Transformer} {Language} {Model} for {Italian} {Law}},
	volume = {3256},
	shorttitle = {{ITALIAN}-{LEGAL}-{BERT}},
	url = {https://ceur-ws.org/Vol-3256/#km4law3},
	language = {en},
	urldate = {2022-11-19},
	booktitle = {Companion {Proceedings} of the 23rd {International} {Conference} on {Knowledge} {Engineering} and {Knowledge} {Management}},
	publisher = {CEUR},
	author = {Licari, Daniele and Comandè, Giovanni},
	editor = {Symeonidou, Danai and Yu, Ran and Ceolin, Davide and Poveda-Villalón, María and Audrito, Davide and Caro, Luigi Di and Grasso, Francesca and Nai, Roberto and Sulis, Emilio and Ekaputra, Fajar J. and Kutz, Oliver and Troquard, Nicolas},
	month = sep,
	year = {2022},
	note = {ISSN: 1613-0073},
	file = {Full Text PDF:https://ceur-ws.org/Vol-3256/km4law3.pdf},
}