legal_t5_small_trans_de_en開源模型 - 免費實現法律文本德語到英語翻譯

首頁

Legal T5 Small Trans De En

由SEBIS開發

該模型用於將法律文本從德語翻譯成英語，基於t5-small架構訓練，適用於法律文檔翻譯任務。

機器翻譯 #法律文本翻譯 #德語轉英語 #歐盟法律專用

下載量 18

發布時間 : 3/2/2022

模型概述

基於T5-small架構的法律文本翻譯模型，專門用於德語到英語的法律文檔翻譯，訓練於JRC-ACQUIS、EUROPARL和DCEP等法律平行語料庫。

模型特點

法律領域專業化

專門針對法律文本訓練，能準確處理法律術語和複雜句式。

多語料庫訓練

在JRC-ACQUIS、EUROPARL和DCEP三大法律平行語料庫上訓練，覆蓋廣泛法律文本類型。

高效小模型

基於T5-small架構優化，在保持性能的同時減少計算資源需求。

模型能力

法律文本翻譯

術語準確轉換

複雜句式處理

使用案例

法律文檔翻譯

歐盟法律文件翻譯

將歐盟法律文件從德語準確翻譯為英語

BLEU評分49.1

企業合同翻譯

翻譯德語合同文件為英語版本

🚀 legal_t5_small_trans_de_en模型

該模型用於將德語法律文本翻譯成英語。它首次發佈於此倉庫。此模型在來自jrc - acquis、europarl和dcep的三個平行語料庫上進行訓練。

🚀 快速開始

legal_t5_small_trans_de_en模型可用於將德語法律文本翻譯成英語。以下是在PyTorch中使用該模型的示例代碼：

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_en", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

de_text = "Eisenbahnunternehmen müssen Fahrkarten über mindestens einen der folgenden Vertriebswege anbieten: an Fahrkartenschaltern oder Fahrkartenautomaten, per Telefon, Internet oder jede andere in weitem Umfang verfügbare Informationstechnik oder in den Zügen."

pipeline([de_text], max_length=512)

✨ 主要特性

基於t5 - small模型，在大量平行文本語料庫上進行訓練。
是一個較小的模型，通過使用dmodel = 512、dff = 2,048、8頭注意力機制，且編碼器和解碼器各只有6層，對t5的基線模型進行了縮減。此變體約有6000萬個參數。
可用於德語法律文本到英語的翻譯。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_en", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

de_text = "Eisenbahnunternehmen müssen Fahrkarten über mindestens einen der folgenden Vertriebswege anbieten: an Fahrkartenschaltern oder Fahrkartenautomaten, per Telefon, Internet oder jede andere in weitem Umfang verfügbare Informationstechnik oder in den Zügen."

pipeline([de_text], max_length=512)

📚 詳細文檔

模型描述

legal_t5_small_trans_de_en基於t5 - small模型，並在大量平行文本語料庫上進行訓練。這是一個較小的模型，通過使用dmodel = 512、dff = 2,048、8頭注意力機制，且編碼器和解碼器各只有6層，對t5的基線模型進行了縮減。此變體約有6000萬個參數。

預期用途和侷限性

該模型可用於將德語法律文本翻譯成英語。

訓練數據

legal_t5_small_trans_de_en模型在JRC - ACQUIS、EUROPARL和DCEP數據集上進行訓練，這些數據集包含500萬條平行文本。

訓練過程

該模型在單個TPU Pod V3 - 8上總共訓練了250K步，使用序列長度為512（批量大小為4096）。它總共有約2.2億個參數，採用編碼器 - 解碼器架構進行訓練。使用的優化器是AdaFactor，預訓練採用逆平方根學習率調度。

預處理

使用從平行語料庫（所有可能的語言對）的8800萬行文本訓練的一元模型來獲取詞彙表（使用字節對編碼），該詞彙表與此模型一起使用。

預訓練

文檔未詳細說明預訓練內容。

評估結果

當該模型用於翻譯測試數據集時，取得了以下結果：

模型	BLEU分數
legal_t5_small_trans_de_en	49.1

BibTeX引用和引用信息

Created by Ahmed Elnaggar/@Elnaggar_AI | LinkedIn

🔧 技術細節

該模型基於t5 - small模型進行改進，在模型規模上進行了縮減，使用了特定的參數設置（dmodel = 512、dff = 2,048、8頭注意力機制，編碼器和解碼器各6層），並在特定的數據集上進行訓練，採用了特定的訓練架構（編碼器 - 解碼器架構）和優化器（AdaFactor）以及學習率調度（逆平方根學習率調度）。這些技術細節使得模型在德語法律文本到英語的翻譯任務中具有一定的性能表現。