legal-bert-dutch-englishオープンソースモデル - オランダ語と英語の両言語に対応する法律テキスト処理を無料でサポート

ホーム

Legal Bert Dutch English

Gerwinによって開発

mBERTを法律文書でさらに訓練した多言語BERTモデルで、オランダ語と英語の法律文書処理をサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #法律文書分類 #オランダ語・英語バイリンガル #EU法最適化

ダウンロード数 388

リリース時間 : 7/8/2022

モデル概要

このモデルはオランダ語と英語の法律文書（規制、決定、指令、議会質問文書を含む）でさらに訓練されたBERTモデルで、法律分野のテキスト分析に最適化されています

モデル特徴

法律分野最適化

18.4万件の法律文書で専門的に訓練され、法律文書処理能力を向上

バイリンガル対応

オランダ語と英語の法律文書処理を同時にサポート

効率的な訓練

6万ステップの訓練を実施し、限られたデータ量で最高の性能を達成

モデル能力

法律文書分類

多言語テキスト理解

法律文書分析

使用事例

法律文書処理

EU法律文書分類

Multi-EURLEXデータセットのオランダ語と英語法律文書を分類

オランダ語分類タスクで0.786のF1スコアを獲得

銀行法律文書分析

ラボバンクの長文法律文書分類を処理

0.732のF1スコアを獲得

🚀 オランダ語と英語に対応した法務用BERTモデル

mBERT を法務文書でさらに学習させたBERTモデルです。論文はこちらからダウンロードできます。

🚀 クイックスタート

この法務用BERTモデルは、オランダ語と英語の法務文書に対応しており、特定の法務分野でのタスクに活用できます。

✨ 主な機能

オランダ語と英語の法務文書に対応したBERTモデル。
mBERT をベースに法務文書でさらに学習させています。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコードでモデルを読み込むことができます。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("Gerwin/legal-bert-dutch-english")
model = AutoModel.from_pretrained("Gerwin/legal-bert-dutch-english")  # PyTorch
model = TFAutoModel.from_pretrained("Gerwin/legal-bert-dutch-english")  # TensorFlow

📚 ドキュメント

データ

このモデルは、EurlexBERT と同じ方法でさらに学習されています。規則、決定、指令、議会質問などのオランダ語と英語の文書を収集し、合計184kの文書（約295M語）を使用してモデルをさらに学習させました。これは元のBERTモデルの9%未満のサイズです。さらなる学習は60kステップで行われました。元のBERT論文で提案されていた100kのチェックポイントと比較して、60kステップの方が良い結果を示したためです。100kステップ以上の学習は有益ではありませんでした。

ベンチマーク

ここでは、人気のあるBERTモデルとこのモデルのいくつかの比較を示します。これらのベンチマークのファインチューニング手順は、各事前学習モデルに対して同一であり、論文で詳細に説明されています。個々のモデルについて、ファインチューニング手順を最適化することで、より高いスコアを達成することができるかもしれません。表には重み付きF1スコアが示されています。

法務トピック分類

モデル	Multi-EURLEX (NL)
legal-bert-dutch-english	0.786
mBERT	0.779
BERTje	0.775

モデル	Multi-EURLEX (EN)
legal-bert-dutch-english	0.786
mBERT	0.772
BERT	0.791
LegalBERT	0.791
EurlexBERT	0.795

多クラス分類 (Rabobank)

このデータセットはオープンソースではありませんが、オランダ語と英語の法務文書を分類する必要があるため、興味深いケースです。このデータセットは、合計30クラスの8000の長い法務文書（2000のオランダ語文書と6000の英語文書）で構成されています。オランダ語と英語のBERTモデルを組み合わせたアーキテクチャは有益ではありませんでした。両言語の文書が同じクラスに属する可能性があるためです。