legal-xlm-roberta-base开源模型 - 支持24种欧洲语言的法律文本处理

首页

Legal Xlm Roberta Base

由 joelniklaus 开发

基于法律数据预训练的多语言XLM-RoBERTa模型，支持24种欧洲语言的法律文本处理

大型语言模型

Transformers

支持多种语言开源协议:CC #法律文本处理 #多语言支持 #RoBERTa架构

下载量 387

发布时间 : 1/16/2023

模型简介

该模型是在多语言法律语料库上进一步预训练的XLM-RoBERTa基础版，专为法律领域下游任务优化设计

模型特点

法律领域优化

使用689GB多语言法律语料库专门预训练，在法律文本处理上表现优异

多语言支持

支持24种欧洲语言的法律文本处理，包括小语种如马耳他语、爱尔兰语等

长文本处理能力

采用窗口注意力机制和15%掩码率优化，适合处理法律长文本

模型能力

法律文本理解

多语言文本分类

法律问答系统

法律实体识别

使用案例

法律文本分析

法律文件分类

对多语言法律文件进行自动分类

在LEXTREME基准测试中表现优异

法律问答系统

构建跨法域的法律问答应用

法律研究辅助

跨法域法律条文比对

分析不同国家法律条文的相似性与差异

🚀 joelito/legal-xlm-roberta-base 模型卡片

本模型是一个在法律数据上进行预训练的多语言模型。它基于 XLM - R（基础版和大模型版）构建。在预训练过程中，我们使用了 Multi Legal Pile（Niklaus 等人，2023），这是一个来自各种法律来源的多语言数据集，涵盖 24 种语言。

🚀 快速开始

可参考 Hugging Face 教程。若要进行掩码词预测，可查看此教程。

✨ 主要特性

多语言支持：支持 bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv 等 24 种语言。
基于法律数据训练：专门针对法律数据进行预训练，在法律领域任务中可能表现出色。

📚 详细文档

模型详情

模型描述

开发者：Joel Niklaus，Hugging Face；邮箱
模型类型：基于 Transformer 的语言模型（RoBERTa）
支持语言（NLP）：bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv
许可证：CC BY - SA

属性	详情
模型类型	基于 Transformer 的语言模型（RoBERTa）
训练数据	Multi Legal Pile（Niklaus 等人，2023）

用途

直接使用和下游使用

由于我们未进行下一句预测，因此可以将原始模型用于掩码语言建模。不过，其主要用途是针对下游任务进行微调。

需要注意的是，该模型主要设计用于需要依据整个句子（可能包含掩码元素）来做决策的任务进行微调。此类任务的示例包括序列分类、标记分类或问答。对于文本生成任务，像 GPT - 2 这样的模型更为合适。

此外，该模型是专门针对法律数据进行训练的，旨在在该领域展现出色性能。当应用于非法律数据时，其性能可能会有所不同。

超出适用范围的使用

对于文本生成等任务，你应该考虑使用像 GPT2 这样的模型。

不应使用该模型故意为人们创造敌对或排斥性的环境。该模型并非旨在对人物或事件进行事实性或真实性的呈现，因此使用该模型生成此类内容超出了其能力范围。

偏差、风险和局限性

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见 Sheng 等人（2021）和 Bender 等人（2021））。该模型生成的预测结果可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安且有害的刻板印象。

⚠️ 重要提示

用户（包括直接用户和下游用户）应该了解该模型的风险、偏差和局限性。

训练详情

本模型在 Multi Legal Pile（Niklaus 等人，2023）上进行了预训练。

我们的预训练过程包括以下关键步骤： (a) 热启动：我们从 Conneau 等人（2019）的原始 XLM - R 检查点（基础版和大模型版）初始化我们的模型，以受益于训练良好的基础。 (b) 分词：我们训练了一个包含 128K BPE 的新分词器，以更好地覆盖法律语言。不过，对于词法上重叠的标记，我们复用了原始 XLM - R 的嵌入，其余标记则使用随机嵌入。 (c) 预训练：我们在 Multi Legal Pile 上继续进行预训练，基础版/大模型版分别以 512 个样本为一批，再进行 100 万/50 万步的训练。我们使用热身步骤、线性增加的学习率和余弦衰减调度。在热身阶段，仅更新嵌入，并使用比 Devlin 等人（2019）更高的掩码率和基于掩码标记的预测百分比。 (d) 句子采样：我们采用了带有指数平滑的句子采样器，以处理各州和各语言之间不同的标记比例，同时保留每个州和每种语言的容量。 (e) 大小写混合模型：与最近开发的大型预训练语言模型类似，我们的模型同时涵盖大写和小写字母。 (f) 长上下文训练：为了处理法律文档中的长上下文，我们在长上下文上使用窗口注意力机制训练基础大小的多语言模型。这个变体名为 Legal - Swiss - LF - base，使用 15% 的掩码概率、提高的学习率，以及与小上下文模型类似的设置。

训练数据

本模型在 Multi Legal Pile（Niklaus 等人，2023）上进行了预训练。

预处理

更多详细信息请参阅 Niklaus 等人，2023

训练超参数

批次大小：512 个样本
步数：基础版/大模型版分别为 100 万/50 万步
热身步数：占总训练步数的前 5%
学习率：（线性增加至）1e - 4
词掩码：基础版/大模型版分别增加 20%/30% 的掩码率

评估

如需深入了解评估情况，可参考训练器状态。更多信息可在 TensorBoard 中获取。

对于下游任务的性能，如 LEXTREME（Niklaus 等人，2023）或 LEXGLUE（Chalkidis 等人，2021），请参考 Niklaus 等人（2023）的研究结果 1，2。

模型架构和目标

这是一个基于 RoBERTa 的模型。运行以下代码查看架构：

from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)

RobertaModel(
  (embeddings): RobertaEmbeddings(
    (word_embeddings): Embedding(128000, 768, padding_idx=0)
    (position_embeddings): Embedding(514, 768, padding_idx=0)
    (token_type_embeddings): Embedding(1, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): RobertaEncoder(
    (layer): ModuleList(
      (0-11): 12 x RobertaLayer(
        (attention): RobertaAttention(
          (self): RobertaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): RobertaSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
        (intermediate): RobertaIntermediate(
          (dense): Linear(in_features=768, out_features=3072, bias=True)
          (intermediate_act_fn): GELUActivation()
        )
        (output): RobertaOutput(
          (dense): Linear(in_features=3072, out_features=768, bias=True)
          (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
  )
  (pooler): RobertaPooler(
    (dense): Linear(in_features=768, out_features=768, bias=True)
    (activation): Tanh()
  )
)

计算基础设施

硬件

Google TPU v3 - 8

软件

PyTorch、Transformers

🔧 技术细节

引用

@article{Niklaus2023MultiLegalPileA6,
  title={MultiLegalPile: A 689GB Multilingual Legal Corpus},
  author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho},
  journal={ArXiv},
  year={2023},
  volume={abs/2306.02069}
}