模型简介
模型特点
模型能力
使用案例
🚀 joelito/legal-xlm-roberta-base 模型卡片
本模型是一个在法律数据上进行预训练的多语言模型。它基于 XLM - R(基础版 和 大模型版)构建。在预训练过程中,我们使用了 Multi Legal Pile(Niklaus 等人,2023),这是一个来自各种法律来源的多语言数据集,涵盖 24 种语言。
🚀 快速开始
可参考 Hugging Face 教程。若要进行掩码词预测,可查看 此教程。
✨ 主要特性
- 多语言支持:支持 bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv 等 24 种语言。
- 基于法律数据训练:专门针对法律数据进行预训练,在法律领域任务中可能表现出色。
📚 详细文档
模型详情
模型描述
- 开发者:Joel Niklaus,Hugging Face;邮箱
- 模型类型:基于 Transformer 的语言模型(RoBERTa)
- 支持语言(NLP):bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv
- 许可证:CC BY - SA
属性 | 详情 |
---|---|
模型类型 | 基于 Transformer 的语言模型(RoBERTa) |
训练数据 | Multi Legal Pile(Niklaus 等人,2023) |
用途
直接使用和下游使用
由于我们未进行下一句预测,因此可以将原始模型用于掩码语言建模。不过,其主要用途是针对下游任务进行微调。
需要注意的是,该模型主要设计用于需要依据整个句子(可能包含掩码元素)来做决策的任务进行微调。此类任务的示例包括序列分类、标记分类或问答。对于文本生成任务,像 GPT - 2 这样的模型更为合适。
此外,该模型是专门针对法律数据进行训练的,旨在在该领域展现出色性能。当应用于非法律数据时,其性能可能会有所不同。
超出适用范围的使用
对于文本生成等任务,你应该考虑使用像 GPT2 这样的模型。
不应使用该模型故意为人们创造敌对或排斥性的环境。该模型并非旨在对人物或事件进行事实性或真实性的呈现,因此使用该模型生成此类内容超出了其能力范围。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng 等人(2021) 和 Bender 等人(2021))。该模型生成的预测结果可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安且有害的刻板印象。
⚠️ 重要提示
用户(包括直接用户和下游用户)应该了解该模型的风险、偏差和局限性。
训练详情
本模型在 Multi Legal Pile(Niklaus 等人,2023)上进行了预训练。
我们的预训练过程包括以下关键步骤: (a) 热启动:我们从 Conneau 等人(2019) 的原始 XLM - R 检查点(基础版 和 大模型版)初始化我们的模型,以受益于训练良好的基础。 (b) 分词:我们训练了一个包含 128K BPE 的新分词器,以更好地覆盖法律语言。不过,对于词法上重叠的标记,我们复用了原始 XLM - R 的嵌入,其余标记则使用随机嵌入。 (c) 预训练:我们在 Multi Legal Pile 上继续进行预训练,基础版/大模型版分别以 512 个样本为一批,再进行 100 万/50 万步的训练。我们使用热身步骤、线性增加的学习率和余弦衰减调度。在热身阶段,仅更新嵌入,并使用比 Devlin 等人(2019) 更高的掩码率和基于掩码标记的预测百分比。 (d) 句子采样:我们采用了带有指数平滑的句子采样器,以处理各州和各语言之间不同的标记比例,同时保留每个州和每种语言的容量。 (e) 大小写混合模型:与最近开发的大型预训练语言模型类似,我们的模型同时涵盖大写和小写字母。 (f) 长上下文训练:为了处理法律文档中的长上下文,我们在长上下文上使用窗口注意力机制训练基础大小的多语言模型。这个变体名为 Legal - Swiss - LF - base,使用 15% 的掩码概率、提高的学习率,以及与小上下文模型类似的设置。
训练数据
本模型在 Multi Legal Pile(Niklaus 等人,2023)上进行了预训练。
预处理
更多详细信息请参阅 Niklaus 等人,2023
训练超参数
- 批次大小:512 个样本
- 步数:基础版/大模型版分别为 100 万/50 万步
- 热身步数:占总训练步数的前 5%
- 学习率:(线性增加至)1e - 4
- 词掩码:基础版/大模型版分别增加 20%/30% 的掩码率
评估
如需深入了解评估情况,可参考 训练器状态。更多信息可在 TensorBoard 中获取。
对于下游任务的性能,如 LEXTREME(Niklaus 等人,2023)或 LEXGLUE(Chalkidis 等人,2021),请参考 Niklaus 等人(2023)的研究结果 1,2。
模型架构和目标
这是一个基于 RoBERTa 的模型。运行以下代码查看架构:
from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)
RobertaModel(
(embeddings): RobertaEmbeddings(
(word_embeddings): Embedding(128000, 768, padding_idx=0)
(position_embeddings): Embedding(514, 768, padding_idx=0)
(token_type_embeddings): Embedding(1, 768)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(encoder): RobertaEncoder(
(layer): ModuleList(
(0-11): 12 x RobertaLayer(
(attention): RobertaAttention(
(self): RobertaSelfAttention(
(query): Linear(in_features=768, out_features=768, bias=True)
(key): Linear(in_features=768, out_features=768, bias=True)
(value): Linear(in_features=768, out_features=768, bias=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(output): RobertaSelfOutput(
(dense): Linear(in_features=768, out_features=768, bias=True)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
)
(intermediate): RobertaIntermediate(
(dense): Linear(in_features=768, out_features=3072, bias=True)
(intermediate_act_fn): GELUActivation()
)
(output): RobertaOutput(
(dense): Linear(in_features=3072, out_features=768, bias=True)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(pooler): RobertaPooler(
(dense): Linear(in_features=768, out_features=768, bias=True)
(activation): Tanh()
)
)
计算基础设施
硬件
Google TPU v3 - 8
软件
PyTorch、Transformers
🔧 技术细节
引用
@article{Niklaus2023MultiLegalPileA6,
title={MultiLegalPile: A 689GB Multilingual Legal Corpus},
author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho},
journal={ArXiv},
year={2023},
volume={abs/2306.02069}
}
模型卡片作者
Joel Niklaus:Hugging Face;邮箱 Veton Matoshi:Hugging Face;邮箱
模型卡片联系方式
Joel Niklaus:Hugging Face;邮箱 Veton Matoshi:Hugging Face;邮箱
📄 许可证
CC BY - SA



