モデル概要
モデル特徴
モデル能力
使用事例
🚀 joelito/legal-xlm-roberta-base モデルカード
このモデルは、法務データで事前学習された多言語モデルです。XLM - R(base と large)に基づいています。事前学習には、Multi Legal Pile(Niklaus et al. 2023)を使用しました。これは、24 の言語をカバーする様々な法務ソースからの多言語データセットです。
🚀 クイックスタート
モデルの使い始め方については、huggingfaceチュートリアル を参照してください。マスクされた単語の予測については、このチュートリアル を参照してください。
✨ 主な機能
- 多言語対応:bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv の 24 言語に対応しています。
- 法務データでの事前学習:法務ドメインで強力な性能を発揮することを目指しています。
📦 インストール
インストールに関する具体的な手順は提供されていません。
💻 使用例
基本的な使用法
from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)
📚 ドキュメント
モデルの詳細
モデルの説明
- 開発者:Joel Niklaus: huggingface; email
- モデルの種類:Transformerベースの言語モデル(RoBERTa)
- 言語(NLP):bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv
- ライセンス:CC BY - SA
用途
直接利用と下流タスクでの利用
次文予測を行っていないため、生のモデルをマスク言語モデリングに利用することができます。ただし、主な目的は下流タスクのために微調整することです。
このモデルは、主に文全体(場合によってはマスク要素を含む)に基づいて判断するタスクの微調整用に設計されています。そのようなタスクの例としては、シーケンス分類、トークン分類、または質問応答があります。テキスト生成タスクには、GPT - 2 のようなモデルの方が適しています。
また、このモデルは法務データで特に学習されており、そのドメインで強力な性能を発揮することを目指しています。非法務データに適用すると、性能が異なる場合があります。
想定外の用途
テキスト生成などのタスクには、GPT2 のようなモデルを検討する必要があります。
このモデルは、人々に敵意や疎外感を抱かせる環境を意図的に作り出すために使用してはいけません。このモデルは、人やイベントの事実や真実を表現するように学習されていないため、そのような内容を生成するためにモデルを使用することは、このモデルの能力範囲外です。
バイアス、リスク、および制限
言語モデルのバイアスと公平性の問題については、多くの研究が行われています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。このモデルによって生成される予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的・職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザー(直接ユーザーと下流ユーザーの両方)は、モデルのリスク、バイアス、および制限について認識する必要があります。
学習の詳細
このモデルは、Multi Legal Pile(Niklaus et al. 2023)で事前学習されました。
事前学習手順には、以下の主要なステップが含まれます。 (a) ウォームスタート:Conneau et al. (2019) の元の XLM - R チェックポイント(base と large)からモデルを初期化し、訓練されたベースを活用します。 (b) トークン化:法務言語をよりよくカバーするために、128K BPE の新しいトークナイザーを学習します。ただし、語彙的に重複するトークンには元の XLM - R 埋め込みを再利用し、残りのトークンにはランダムな埋め込みを使用します。 (c) 事前学習:Multi Legal Pile で、バッチサイズ 512 サンプルで、ベース/ラージモデルについてそれぞれ追加で 1M/500K ステップの事前学習を続けます。ウォームアップステップ、線形に増加する学習率、およびコサイン減衰スケジューリングを使用します。ウォームアップフェーズでは、埋め込みのみが更新され、Devlin et al. (2019) と比較して、より高いマスキング率とマスクされたトークンに基づく予測の割合を使用します。 (d) 文サンプリング:指数平滑を使用した文サンプラーを採用して、州および言語間の異なるトークン割合を処理し、州ごとおよび言語ごとの容量を維持します。 (e) 大文字小文字混合モデル:最近開発された大規模 PLM と同様に、モデルは大文字と小文字の両方をカバーしています。 (f) 長文脈学習:法務ドキュメントの長文脈を考慮して、ベースサイズの多言語モデルをウィンドウ化されたアテンションを使用して長文脈で学習させます。このバリアントである Legal - Swiss - LF - base は、15% のマスキング確率、増加した学習率、および短文脈モデルと同様の設定を使用します。
学習データ
このモデルは、Multi Legal Pile(Niklaus et al. 2023)で事前学習されました。
前処理
詳細については、Niklaus et al. 2023 を参照してください。
学習ハイパーパラメータ
- バッチサイズ:512 サンプル
- ステップ数:ベース/ラージモデルについて 1M/500K
- ウォームアップステップ:総学習ステップの最初の 5%
- 学習率:(線形に増加して)1e - 4
- 単語マスキング:ベース/ラージモデルについてそれぞれ 20/30% の増加したマスキング率
評価
評価に関する詳細な洞察については、trainer state を参照してください。追加情報は、tensorboard で入手できます。
下流タスク(LEXTREME(Niklaus et al. 2023)または LEXGLUE(Chalkidis et al. 2021)など)での性能については、Niklaus et al. (2023) 1、2 に提示されている結果を参照してください。
モデルのアーキテクチャと目的
これは RoBERTa ベースのモデルです。アーキテクチャを表示するには、以下のコードを実行します。
from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)
RobertaModel(
(embeddings): RobertaEmbeddings(
(word_embeddings): Embedding(128000, 768, padding_idx=0)
(position_embeddings): Embedding(514, 768, padding_idx=0)
(token_type_embeddings): Embedding(1, 768)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(encoder): RobertaEncoder(
(layer): ModuleList(
(0-11): 12 x RobertaLayer(
(attention): RobertaAttention(
(self): RobertaSelfAttention(
(query): Linear(in_features=768, out_features=768, bias=True)
(key): Linear(in_features=768, out_features=768, bias=True)
(value): Linear(in_features=768, out_features=768, bias=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(output): RobertaSelfOutput(
(dense): Linear(in_features=768, out_features=768, bias=True)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
)
(intermediate): RobertaIntermediate(
(dense): Linear(in_features=768, out_features=3072, bias=True)
(intermediate_act_fn): GELUActivation()
)
(output): RobertaOutput(
(dense): Linear(in_features=3072, out_features=768, bias=True)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(pooler): RobertaPooler(
(dense): Linear(in_features=768, out_features=768, bias=True)
(activation): Tanh()
)
)
コンピューティングインフラストラクチャ
ハードウェア
Google TPU v3 - 8
ソフトウェア
pytorch、transformers
🔧 技術詳細
事前学習の手順やハイパーパラメータの設定など、技術的な詳細は「学習の詳細」セクションで説明されています。
📄 ライセンス
CC BY - SA
引用
@article{Niklaus2023MultiLegalPileA6,
title={MultiLegalPile: A 689GB Multilingual Legal Corpus},
author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho},
journal={ArXiv},
year={2023},
volume={abs/2306.02069}
}
モデルカードの作成者
Joel Niklaus: huggingface; email Veton Matoshi: huggingface; email
モデルカードの問い合わせ先
Joel Niklaus: huggingface; email Veton Matoshi: huggingface; email



