legal_t5_small_trans_cs_de_small_finetuned開源模型 - 免費實現捷克語法律文本到德語翻譯

首頁

Legal T5 Small Trans Cs De Small Finetuned

由SEBIS開發

該模型用於將法律文本從捷克語翻譯成德語，基於T5-small架構進行微調訓練。

機器翻譯 #法律文本翻譯 #捷克語轉德語 #歐盟法律專用

下載量 18

發布時間 : 3/2/2022

模型概述

專門針對捷克語法律文本到德語翻譯的序列到序列模型，在JRC-ACQUIS、EUROPARL和DCEP等法律平行語料庫上訓練。

模型特點

法律領域專業化

針對法律文本的術語和句式特點進行優化訓練

多數據集聯合訓練

整合JRC-ACQUIS、EUROPARL和DCEP三大法律平行語料庫

兩階段訓練策略

先通過無監督預訓練學習通用特徵，再進行有監督微調

模型能力

法律文本翻譯

跨語言語義轉換

專業術語處理

使用案例

法律文書翻譯

歐盟法律文件翻譯

將捷克語版歐盟法律條文翻譯為德語版本

BLEU評分44.175（測試集）

跨境法律合規

幫助企業快速理解捷克法律要求的德語翻譯

🚀 legal_t5_small_trans_cs_de_small_finetuned模型

legal_t5_small_trans_cs_de_small_finetuned模型用於將法律文本從捷克語翻譯成德語。該模型首次發佈於此倉庫。它先在所有翻譯數據上針對一些無監督任務進行預訓練，然後在來自jrc - acquis、europarl和dcep的三個平行語料庫上進行訓練。

🚀 快速開始

如何使用

以下是在PyTorch中使用此模型將法律文本從捷克語翻譯成德語的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_cs_de_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_cs_de", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

cs_text = "Vzhledem k tomu, že tento právní předpis bude přímo použitelný v členských státech a zavede mnoho povinností pro ty, na něž se vztahuje, je žádoucí, aby se jim poskytlo více času na přizpůsobení se těmto novým pravidlům."

pipeline([cs_text], max_length=512)

✨ 主要特性

該模型專為法律文本的捷克語到德語翻譯而設計。
基於t5 - small模型，是一個較小規模的模型，通過使用dmodel = 512、dff = 2,048、8頭注意力機制，且編碼器和解碼器各僅6層，對t5的基線模型進行了縮減，約有6000萬個參數。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_cs_de_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_cs_de", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

cs_text = "Vzhledem k tomu, že tento právní předpis bude přímo použitelný v členských státech a zavede mnoho povinností pro ty, na něž se vztahuje, je žádoucí, aby se jim poskytlo více času na přizpůsobení se těmto novým pravidlům."

pipeline([cs_text], max_length=512)

高級用法

文檔未提及高級用法示例，暫不提供。

📚 詳細文檔

模型描述

legal_t5_small_trans_cs_de_small_finetuned最初在訓練集的所有數據上針對無監督任務進行預訓練，該無監督任務為“掩碼語言建模”。它基於t5 - small模型，並在大量平行文本語料庫上進行訓練。

預期用途和侷限性

該模型可用於將法律文本從捷克語翻譯成德語。

🔧 技術細節

訓練數據

legal_t5_small_trans_cs_de_small_finetuned模型（涉及僅對應語言對的有監督任務以及所有語言對數據都可用的無監督任務）在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 數據集上進行訓練，這些數據集包含500萬個平行文本。

訓練過程

該模型在單個TPU Pod V3 - 8上總共訓練了250K步，使用序列長度512（批量大小4096）。它總共有約2.2億個參數，採用編碼器 - 解碼器架構進行訓練。預訓練使用的優化器是AdaFactor，採用逆平方根學習率調度。

預處理

使用從平行語料庫（所有可能的語言對）的8800萬行文本訓練的一元模型來獲取詞彙表（使用字節對編碼），該詞彙表與此模型一起使用。

預訓練

預訓練數據是所有42種語言對的組合數據。模型的任務是預測句子中隨機掩碼的部分。

評估結果

當該模型用於翻譯測試數據集時，取得了以下結果：

模型	BLEU分數
legal_t5_small_trans_cs_de_small_finetuned	44.175

BibTeX引用和引用信息

由 Ahmed Elnaggar/@Elnaggar_AI 創建 | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)

📄 許可證

文檔未提及許可證信息，暫不提供。

信息表格

屬性	詳情
模型類型	legal_t5_small_trans_cs_de_small_finetuned，用於捷克語到德語的法律文本翻譯模型
訓練數據	[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 數據集，包含500萬個平行文本