legal-xlm-roberta-baseオープンソースモデル - 24種類の欧州言語をサポートする法的テキスト処理

ホーム

Legal Xlm Roberta Base

joelniklausによって開発

法律データで事前学習された多言語XLM-RoBERTaモデル、24の欧州言語の法律文書処理をサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:CC #法律文書処理 #多言語サポート #RoBERTaアーキテクチャ

ダウンロード数 387

リリース時間 : 1/16/2023

モデル概要

このモデルは多言語法律コーパスでさらに事前学習されたXLM-RoBERTaベース版で、法律分野の下流タスク向けに最適化設計

モデル特徴

法律分野最適化

689GBの多言語法律コーパスで専門的に事前学習され、法律文書処理で優れた性能を発揮

多言語サポート

マルタ語、アイルランド語などの少数言語を含む24の欧州言語の法律文書処理をサポート

長文処理能力

ウィンドウアテンション機構と15%のマスク率で最適化され、法律の長文処理に適している

モデル能力

法律文書理解

多言語テキスト分類

法律質問応答システム

法律エンティティ認識

使用事例

法律文書分析

法律文書分類

多言語の法律文書を自動分類

LEXTREMEベンチマークで優れた成績

法律質問応答システム

複数の法域に跨る法律質問応答アプリケーションを構築

法律研究支援

複数法域の法律条文比較

異なる国の法律条文の類似性と差異を分析

🚀 joelito/legal-xlm-roberta-base モデルカード

このモデルは、法務データで事前学習された多言語モデルです。XLM - R（base と large）に基づいています。事前学習には、Multi Legal Pile（Niklaus et al. 2023）を使用しました。これは、24 の言語をカバーする様々な法務ソースからの多言語データセットです。

🚀 クイックスタート

モデルの使い始め方については、huggingfaceチュートリアルを参照してください。マスクされた単語の予測については、このチュートリアルを参照してください。

✨ 主な機能

多言語対応：bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv の 24 言語に対応しています。
法務データでの事前学習：法務ドメインで強力な性能を発揮することを目指しています。

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)

📚 ドキュメント

モデルの詳細

モデルの説明

開発者：Joel Niklaus: huggingface; email
モデルの種類：Transformerベースの言語モデル（RoBERTa）
言語（NLP）：bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv
ライセンス：CC BY - SA

用途

直接利用と下流タスクでの利用

次文予測を行っていないため、生のモデルをマスク言語モデリングに利用することができます。ただし、主な目的は下流タスクのために微調整することです。

このモデルは、主に文全体（場合によってはマスク要素を含む）に基づいて判断するタスクの微調整用に設計されています。そのようなタスクの例としては、シーケンス分類、トークン分類、または質問応答があります。テキスト生成タスクには、GPT - 2 のようなモデルの方が適しています。

また、このモデルは法務データで特に学習されており、そのドメインで強力な性能を発揮することを目指しています。非法務データに適用すると、性能が異なる場合があります。

想定外の用途

テキスト生成などのタスクには、GPT2 のようなモデルを検討する必要があります。

このモデルは、人々に敵意や疎外感を抱かせる環境を意図的に作り出すために使用してはいけません。このモデルは、人やイベントの事実や真実を表現するように学習されていないため、そのような内容を生成するためにモデルを使用することは、このモデルの能力範囲外です。

バイアス、リスク、および制限

言語モデルのバイアスと公平性の問題については、多くの研究が行われています（例えば、Sheng et al. (2021) および Bender et al. (2021) を参照）。このモデルによって生成される予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的・職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。

推奨事項

ユーザー（直接ユーザーと下流ユーザーの両方）は、モデルのリスク、バイアス、および制限について認識する必要があります。

学習の詳細

このモデルは、Multi Legal Pile（Niklaus et al. 2023）で事前学習されました。

事前学習手順には、以下の主要なステップが含まれます。 (a) ウォームスタート：Conneau et al. (2019) の元の XLM - R チェックポイント（base と large）からモデルを初期化し、訓練されたベースを活用します。 (b) トークン化：法務言語をよりよくカバーするために、128K BPE の新しいトークナイザーを学習します。ただし、語彙的に重複するトークンには元の XLM - R 埋め込みを再利用し、残りのトークンにはランダムな埋め込みを使用します。 (c) 事前学習：Multi Legal Pile で、バッチサイズ 512 サンプルで、ベース/ラージモデルについてそれぞれ追加で 1M/500K ステップの事前学習を続けます。ウォームアップステップ、線形に増加する学習率、およびコサイン減衰スケジューリングを使用します。ウォームアップフェーズでは、埋め込みのみが更新され、Devlin et al. (2019) と比較して、より高いマスキング率とマスクされたトークンに基づく予測の割合を使用します。 (d) 文サンプリング：指数平滑を使用した文サンプラーを採用して、州および言語間の異なるトークン割合を処理し、州ごとおよび言語ごとの容量を維持します。 (e) 大文字小文字混合モデル：最近開発された大規模 PLM と同様に、モデルは大文字と小文字の両方をカバーしています。 (f) 長文脈学習：法務ドキュメントの長文脈を考慮して、ベースサイズの多言語モデルをウィンドウ化されたアテンションを使用して長文脈で学習させます。このバリアントである Legal - Swiss - LF - base は、15% のマスキング確率、増加した学習率、および短文脈モデルと同様の設定を使用します。

学習データ

このモデルは、Multi Legal Pile（Niklaus et al. 2023）で事前学習されました。

前処理

詳細については、Niklaus et al. 2023 を参照してください。

学習ハイパーパラメータ

バッチサイズ：512 サンプル
ステップ数：ベース/ラージモデルについて 1M/500K
ウォームアップステップ：総学習ステップの最初の 5%
学習率：（線形に増加して）1e - 4
単語マスキング：ベース/ラージモデルについてそれぞれ 20/30% の増加したマスキング率

評価

評価に関する詳細な洞察については、trainer state を参照してください。追加情報は、tensorboard で入手できます。

下流タスク（LEXTREME（Niklaus et al. 2023）または LEXGLUE（Chalkidis et al. 2021）など）での性能については、Niklaus et al. (2023) 1、2 に提示されている結果を参照してください。

モデルのアーキテクチャと目的

これは RoBERTa ベースのモデルです。アーキテクチャを表示するには、以下のコードを実行します。

from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)

RobertaModel(
  (embeddings): RobertaEmbeddings(
    (word_embeddings): Embedding(128000, 768, padding_idx=0)
    (position_embeddings): Embedding(514, 768, padding_idx=0)
    (token_type_embeddings): Embedding(1, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): RobertaEncoder(
    (layer): ModuleList(
      (0-11): 12 x RobertaLayer(
        (attention): RobertaAttention(
          (self): RobertaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): RobertaSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
        (intermediate): RobertaIntermediate(
          (dense): Linear(in_features=768, out_features=3072, bias=True)
          (intermediate_act_fn): GELUActivation()
        )
        (output): RobertaOutput(
          (dense): Linear(in_features=3072, out_features=768, bias=True)
          (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
  )
  (pooler): RobertaPooler(
    (dense): Linear(in_features=768, out_features=768, bias=True)
    (activation): Tanh()
  )
)

コンピューティングインフラストラクチャ

ハードウェア

Google TPU v3 - 8

ソフトウェア

pytorch、transformers

🔧 技術詳細

事前学習の手順やハイパーパラメータの設定など、技術的な詳細は「学習の詳細」セクションで説明されています。

📄 ライセンス

CC BY - SA

引用

@article{Niklaus2023MultiLegalPileA6,
  title={MultiLegalPile: A 689GB Multilingual Legal Corpus},
  author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho},
  journal={ArXiv},
  year={2023},
  volume={abs/2306.02069}
}