legal-xlm-roberta-base開源模型 - 支持24種歐洲語言的法律文本處理

首頁

Legal Xlm Roberta Base

由joelniklaus開發

基於法律數據預訓練的多語言XLM-RoBERTa模型，支持24種歐洲語言的法律文本處理

大型語言模型

Transformers

支持多種語言開源協議:CC #法律文本處理 #多語言支持 #RoBERTa架構

下載量 387

發布時間 : 1/16/2023

模型概述

該模型是在多語言法律語料庫上進一步預訓練的XLM-RoBERTa基礎版，專為法律領域下游任務優化設計

模型特點

法律領域優化

使用689GB多語言法律語料庫專門預訓練，在法律文本處理上表現優異

多語言支持

支持24種歐洲語言的法律文本處理，包括小語種如馬耳他語、愛爾蘭語等

長文本處理能力

採用窗口注意力機制和15%掩碼率優化，適合處理法律長文本

模型能力

法律文本理解

多語言文本分類

法律問答系統

法律實體識別

使用案例

法律文本分析

法律文件分類

對多語言法律文件進行自動分類

在LEXTREME基準測試中表現優異

法律問答系統

構建跨法域的法律問答應用

法律研究輔助

跨法域法律條文比對

分析不同國家法律條文的相似性與差異

🚀 joelito/legal-xlm-roberta-base 模型卡片

本模型是一個在法律數據上進行預訓練的多語言模型。它基於 XLM - R（基礎版和大模型版）構建。在預訓練過程中，我們使用了 Multi Legal Pile（Niklaus 等人，2023），這是一個來自各種法律來源的多語言數據集，涵蓋 24 種語言。

🚀 快速開始

可參考 Hugging Face 教程。若要進行掩碼詞預測，可查看此教程。

✨ 主要特性

多語言支持：支持 bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv 等 24 種語言。
基於法律數據訓練：專門針對法律數據進行預訓練，在法律領域任務中可能表現出色。

📚 詳細文檔

模型詳情

模型描述

開發者：Joel Niklaus，Hugging Face；郵箱
模型類型：基於 Transformer 的語言模型（RoBERTa）
支持語言（NLP）：bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv
許可證：CC BY - SA

屬性	詳情
模型類型	基於 Transformer 的語言模型（RoBERTa）
訓練數據	Multi Legal Pile（Niklaus 等人，2023）

用途

直接使用和下游使用

由於我們未進行下一句預測，因此可以將原始模型用於掩碼語言建模。不過，其主要用途是針對下游任務進行微調。

需要注意的是，該模型主要設計用於需要依據整個句子（可能包含掩碼元素）來做決策的任務進行微調。此類任務的示例包括序列分類、標記分類或問答。對於文本生成任務，像 GPT - 2 這樣的模型更為合適。

此外，該模型是專門針對法律數據進行訓練的，旨在在該領域展現出色性能。當應用於非法律數據時，其性能可能會有所不同。

超出適用範圍的使用

對於文本生成等任務，你應該考慮使用像 GPT2 這樣的模型。

不應使用該模型故意為人們創造敵對或排斥性的環境。該模型並非旨在對人物或事件進行事實性或真實性的呈現，因此使用該模型生成此類內容超出了其能力範圍。

偏差、風險和侷限性

大量研究已經探討了語言模型的偏差和公平性問題（例如，參見 Sheng 等人（2021）和 Bender 等人（2021））。該模型生成的預測結果可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安且有害的刻板印象。

⚠️ 重要提示

用戶（包括直接用戶和下游用戶）應該瞭解該模型的風險、偏差和侷限性。

訓練詳情

本模型在 Multi Legal Pile（Niklaus 等人，2023）上進行了預訓練。

我們的預訓練過程包括以下關鍵步驟： (a) 熱啟動：我們從 Conneau 等人（2019）的原始 XLM - R 檢查點（基礎版和大模型版）初始化我們的模型，以受益於訓練良好的基礎。 (b) 分詞：我們訓練了一個包含 128K BPE 的新分詞器，以更好地覆蓋法律語言。不過，對於詞法上重疊的標記，我們複用了原始 XLM - R 的嵌入，其餘標記則使用隨機嵌入。 (c) 預訓練：我們在 Multi Legal Pile 上繼續進行預訓練，基礎版/大模型版分別以 512 個樣本為一批，再進行 100 萬/50 萬步的訓練。我們使用熱身步驟、線性增加的學習率和餘弦衰減調度。在熱身階段，僅更新嵌入，並使用比 Devlin 等人（2019）更高的掩碼率和基於掩碼標記的預測百分比。 (d) 句子採樣：我們採用了帶有指數平滑的句子採樣器，以處理各州和各語言之間不同的標記比例，同時保留每個州和每種語言的容量。 (e) 大小寫混合模型：與最近開發的大型預訓練語言模型類似，我們的模型同時涵蓋大寫和小寫字母。 (f) 長上下文訓練：為了處理法律文檔中的長上下文，我們在長上下文上使用窗口注意力機制訓練基礎大小的多語言模型。這個變體名為 Legal - Swiss - LF - base，使用 15% 的掩碼概率、提高的學習率，以及與小上下文模型類似的設置。

訓練數據

本模型在 Multi Legal Pile（Niklaus 等人，2023）上進行了預訓練。

預處理

更多詳細信息請參閱 Niklaus 等人，2023

訓練超參數

批次大小：512 個樣本
步數：基礎版/大模型版分別為 100 萬/50 萬步
熱身步數：佔總訓練步數的前 5%
學習率：（線性增加至）1e - 4
詞掩碼：基礎版/大模型版分別增加 20%/30% 的掩碼率

評估

如需深入瞭解評估情況，可參考訓練器狀態。更多信息可在 TensorBoard 中獲取。

對於下游任務的性能，如 LEXTREME（Niklaus 等人，2023）或 LEXGLUE（Chalkidis 等人，2021），請參考 Niklaus 等人（2023）的研究結果 1，2。

模型架構和目標

這是一個基於 RoBERTa 的模型。運行以下代碼查看架構：

from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)

RobertaModel(
  (embeddings): RobertaEmbeddings(
    (word_embeddings): Embedding(128000, 768, padding_idx=0)
    (position_embeddings): Embedding(514, 768, padding_idx=0)
    (token_type_embeddings): Embedding(1, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): RobertaEncoder(
    (layer): ModuleList(
      (0-11): 12 x RobertaLayer(
        (attention): RobertaAttention(
          (self): RobertaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): RobertaSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
        (intermediate): RobertaIntermediate(
          (dense): Linear(in_features=768, out_features=3072, bias=True)
          (intermediate_act_fn): GELUActivation()
        )
        (output): RobertaOutput(
          (dense): Linear(in_features=3072, out_features=768, bias=True)
          (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
  )
  (pooler): RobertaPooler(
    (dense): Linear(in_features=768, out_features=768, bias=True)
    (activation): Tanh()
  )
)

計算基礎設施

硬件

Google TPU v3 - 8

軟件

PyTorch、Transformers

🔧 技術細節

引用

@article{Niklaus2023MultiLegalPileA6,
  title={MultiLegalPile: A 689GB Multilingual Legal Corpus},
  author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho},
  journal={ArXiv},
  year={2023},
  volume={abs/2306.02069}
}