🚀 legal_t5_small_trans_en_cs模型
這是一個用於將英文法律文本翻譯成捷克語的模型,在多個平行語料庫上訓練得到,為法律文本的翻譯提供了有效的解決方案。
🚀 快速開始
legal_t5_small_trans_en_cs 模型可用於將英文法律文本翻譯成捷克語。它首次發佈於 此倉庫,並在來自 jrc - acquis、europarl 和 dcep 的三個平行語料庫上進行訓練。
✨ 主要特性
- 基於
t5 - small
模型構建,通過特定參數設置(dmodel = 512
,dff = 2,048
,8 頭注意力機制,編碼器和解碼器各 6 層)縮小了 t5 基線模型的規模,參數約 6000 萬。
- 可用於英文到捷克語的法律文本翻譯。
📦 安裝指南
暫未提及安裝相關內容。
💻 使用示例
基礎用法
以下是在 PyTorch 中使用該模型將英文法律文本翻譯成捷克語的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_en_cs"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_en_cs", do_lower_case=False,
skip_special_tokens=True),
device=0
)
en_text = "1 In the countries concerned, this certainly affects the priority assigned to making progress on the issue of final disposal, particularly of highly radioactive waste and irradiated fuel elements."
pipeline([en_text], max_length=512)
📚 詳細文檔
模型描述
legal_t5_small_trans_en_cs 基於 t5 - small
模型,在大量平行文本語料庫上進行訓練。這是一個較小的模型,通過使用 dmodel = 512
,dff = 2,048
,8 頭注意力機制,且編碼器和解碼器各只有 6 層,縮小了 t5 基線模型的規模。該變體約有 6000 萬個參數。
預期用途與限制
該模型可用於將英文法律文本翻譯成捷克語。
訓練數據
legal_t5_small_trans_en_cs 模型在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 數據集上進行訓練,這些數據集包含 500 萬條平行文本。
訓練過程
- 模型在單個 TPU Pod V3 - 8 上總共訓練了 250K 步,使用序列長度 512(批量大小 4096)。
- 它總共有約 2.2 億個參數,採用編碼器 - 解碼器架構進行訓練。
- 優化器使用 AdaFactor,並在預訓練時採用逆平方根學習率調度。
預處理
使用從平行語料庫(所有可能的語言對)中的 8800 萬行文本訓練的 unigram 模型來獲取詞彙表(使用字節對編碼),該詞彙表用於此模型。
評估結果
當模型用於翻譯測試數據集時,取得了以下結果:
模型 |
BLEU 分數 |
legal_t5_small_trans_en_cs |
50.177 |
BibTeX 引用和引用信息
由 Ahmed Elnaggar/@Elnaggar_AI 創建 | [領英](https://www.linkedin.com/in/prof - ahmed - elnaggar/)