🚀 legal_t5_small_trans_de_es模型
這是一個用於將德語法律文本翻譯成西班牙語的模型,為法律文本的跨語言交流提供了高效的解決方案。
🚀 快速開始
legal_t5_small_trans_de_es 模型可用於將德語法律文本翻譯成西班牙語。它首次發佈於 此倉庫,並在來自 jrc - acquis、europarl 和 dcep 的三個平行語料庫上進行了訓練。
✨ 主要特性
- 基於
t5 - small
架構:該模型基於t5 - small
模型構建,通過使用dmodel = 512
、dff = 2,048
、8 頭注意力機制,並且編碼器和解碼器各僅 6 層,對 t5 的基線模型進行了縮小。此變體約有 6000 萬個參數。
- 多語料庫訓練:在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 數據集上進行訓練,這些數據集包含 500 萬條平行文本。
📦 安裝指南
暫未提及具體安裝步驟,可參考transformers
庫的安裝說明來使用該模型。
💻 使用示例
基礎用法
以下是如何在 PyTorch 中使用此模型將德語法律文本翻譯成西班牙語的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_es"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_es", do_lower_case=False,
skip_special_tokens=True),
device=0
)
de_text = "7. betont, dass die Kommission und die Mitgliedstaaten die Rolle der Frauen in der Sozialwirtschaft aufgrund der hohen Frauenerwerbstätigkeit in dem Sektor und der Bedeutung der Dienstleistungen, die er für die Förderung der Vereinbarkeit von Beruf und Privatleben bietet, aufwerten, unterstützen und verstärken müssen;"
pipeline([de_text], max_length=512)
📚 詳細文檔
訓練數據
legal_t5_small_trans_de_es 模型在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 數據集上進行訓練,這些數據集包含 500 萬條平行文本。
訓練過程
- 該模型在單個 TPU Pod V3 - 8 上總共訓練了 250K 步,使用序列長度 512(批量大小 4096)。
- 它總共有約 2.2 億個參數,採用編碼器 - 解碼器架構進行訓練。
- 使用的優化器是 AdaFactor,並採用逆平方根學習率調度進行預訓練。
預處理
使用從平行語料庫(所有可能的語言對)中 8800 萬行文本訓練的 unigram 模型來獲取詞彙表(使用字節對編碼),該詞彙表與此模型一起使用。
預訓練
文檔未詳細提及預訓練的具體內容。
評估結果
當該模型用於翻譯測試數據集時,取得了以下結果:
模型 |
BLEU 分數 |
legal_t5_small_trans_de_es |
47.24 |
BibTeX 引用和引用信息
Created by Ahmed Elnaggar/@Elnaggar_AI | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)