模型概述
模型特點
模型能力
使用案例
🚀 joelito/legal-xlm-roberta-base 模型卡片
本模型是一個在法律數據上進行預訓練的多語言模型。它基於 XLM - R(基礎版 和 大模型版)構建。在預訓練過程中,我們使用了 Multi Legal Pile(Niklaus 等人,2023),這是一個來自各種法律來源的多語言數據集,涵蓋 24 種語言。
🚀 快速開始
可參考 Hugging Face 教程。若要進行掩碼詞預測,可查看 此教程。
✨ 主要特性
- 多語言支持:支持 bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv 等 24 種語言。
- 基於法律數據訓練:專門針對法律數據進行預訓練,在法律領域任務中可能表現出色。
📚 詳細文檔
模型詳情
模型描述
- 開發者:Joel Niklaus,Hugging Face;郵箱
- 模型類型:基於 Transformer 的語言模型(RoBERTa)
- 支持語言(NLP):bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv
- 許可證:CC BY - SA
屬性 | 詳情 |
---|---|
模型類型 | 基於 Transformer 的語言模型(RoBERTa) |
訓練數據 | Multi Legal Pile(Niklaus 等人,2023) |
用途
直接使用和下游使用
由於我們未進行下一句預測,因此可以將原始模型用於掩碼語言建模。不過,其主要用途是針對下游任務進行微調。
需要注意的是,該模型主要設計用於需要依據整個句子(可能包含掩碼元素)來做決策的任務進行微調。此類任務的示例包括序列分類、標記分類或問答。對於文本生成任務,像 GPT - 2 這樣的模型更為合適。
此外,該模型是專門針對法律數據進行訓練的,旨在在該領域展現出色性能。當應用於非法律數據時,其性能可能會有所不同。
超出適用範圍的使用
對於文本生成等任務,你應該考慮使用像 GPT2 這樣的模型。
不應使用該模型故意為人們創造敵對或排斥性的環境。該模型並非旨在對人物或事件進行事實性或真實性的呈現,因此使用該模型生成此類內容超出了其能力範圍。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng 等人(2021) 和 Bender 等人(2021))。該模型生成的預測結果可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安且有害的刻板印象。
⚠️ 重要提示
用戶(包括直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。
訓練詳情
本模型在 Multi Legal Pile(Niklaus 等人,2023)上進行了預訓練。
我們的預訓練過程包括以下關鍵步驟: (a) 熱啟動:我們從 Conneau 等人(2019) 的原始 XLM - R 檢查點(基礎版 和 大模型版)初始化我們的模型,以受益於訓練良好的基礎。 (b) 分詞:我們訓練了一個包含 128K BPE 的新分詞器,以更好地覆蓋法律語言。不過,對於詞法上重疊的標記,我們複用了原始 XLM - R 的嵌入,其餘標記則使用隨機嵌入。 (c) 預訓練:我們在 Multi Legal Pile 上繼續進行預訓練,基礎版/大模型版分別以 512 個樣本為一批,再進行 100 萬/50 萬步的訓練。我們使用熱身步驟、線性增加的學習率和餘弦衰減調度。在熱身階段,僅更新嵌入,並使用比 Devlin 等人(2019) 更高的掩碼率和基於掩碼標記的預測百分比。 (d) 句子採樣:我們採用了帶有指數平滑的句子採樣器,以處理各州和各語言之間不同的標記比例,同時保留每個州和每種語言的容量。 (e) 大小寫混合模型:與最近開發的大型預訓練語言模型類似,我們的模型同時涵蓋大寫和小寫字母。 (f) 長上下文訓練:為了處理法律文檔中的長上下文,我們在長上下文上使用窗口注意力機制訓練基礎大小的多語言模型。這個變體名為 Legal - Swiss - LF - base,使用 15% 的掩碼概率、提高的學習率,以及與小上下文模型類似的設置。
訓練數據
本模型在 Multi Legal Pile(Niklaus 等人,2023)上進行了預訓練。
預處理
更多詳細信息請參閱 Niklaus 等人,2023
訓練超參數
- 批次大小:512 個樣本
- 步數:基礎版/大模型版分別為 100 萬/50 萬步
- 熱身步數:佔總訓練步數的前 5%
- 學習率:(線性增加至)1e - 4
- 詞掩碼:基礎版/大模型版分別增加 20%/30% 的掩碼率
評估
如需深入瞭解評估情況,可參考 訓練器狀態。更多信息可在 TensorBoard 中獲取。
對於下游任務的性能,如 LEXTREME(Niklaus 等人,2023)或 LEXGLUE(Chalkidis 等人,2021),請參考 Niklaus 等人(2023)的研究結果 1,2。
模型架構和目標
這是一個基於 RoBERTa 的模型。運行以下代碼查看架構:
from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)
RobertaModel(
(embeddings): RobertaEmbeddings(
(word_embeddings): Embedding(128000, 768, padding_idx=0)
(position_embeddings): Embedding(514, 768, padding_idx=0)
(token_type_embeddings): Embedding(1, 768)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(encoder): RobertaEncoder(
(layer): ModuleList(
(0-11): 12 x RobertaLayer(
(attention): RobertaAttention(
(self): RobertaSelfAttention(
(query): Linear(in_features=768, out_features=768, bias=True)
(key): Linear(in_features=768, out_features=768, bias=True)
(value): Linear(in_features=768, out_features=768, bias=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(output): RobertaSelfOutput(
(dense): Linear(in_features=768, out_features=768, bias=True)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
)
(intermediate): RobertaIntermediate(
(dense): Linear(in_features=768, out_features=3072, bias=True)
(intermediate_act_fn): GELUActivation()
)
(output): RobertaOutput(
(dense): Linear(in_features=3072, out_features=768, bias=True)
(LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(pooler): RobertaPooler(
(dense): Linear(in_features=768, out_features=768, bias=True)
(activation): Tanh()
)
)
計算基礎設施
硬件
Google TPU v3 - 8
軟件
PyTorch、Transformers
🔧 技術細節
引用
@article{Niklaus2023MultiLegalPileA6,
title={MultiLegalPile: A 689GB Multilingual Legal Corpus},
author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho},
journal={ArXiv},
year={2023},
volume={abs/2306.02069}
}
模型卡片作者
Joel Niklaus:Hugging Face;郵箱 Veton Matoshi:Hugging Face;郵箱
模型卡片聯繫方式
Joel Niklaus:Hugging Face;郵箱 Veton Matoshi:Hugging Face;郵箱
📄 許可證
CC BY - SA



