🚀 legal_t5_small_trans_fr_en 模型
本模型用於將法語法律文本翻譯成英語。它首次發佈於 此倉庫。該模型在來自 JRC-ACQUIS、EUROPARL 和 DCEP 的三個平行語料庫上進行訓練。
📦 模型信息
屬性 |
詳情 |
語言 |
法語、英語 |
標籤 |
法英翻譯模型 |
訓練數據集 |
JRC-ACQUIS、EUROPARL、DCEP |
✨ 主要特性
- 基於
t5-small
模型,在大型平行文本語料庫上進行訓練。
- 是一個較小的模型,通過使用
dmodel = 512
、dff = 2,048
、8 頭注意力機制,且編碼器和解碼器各僅 6 層,對 t5 的基線模型進行了縮減。
- 此變體約有 6000 萬個參數。
🚀 快速開始
本模型可用於將法語法律文本翻譯成英語。
💻 使用示例
基礎用法
以下是如何在 PyTorch 中使用此模型將法語法律文本翻譯成英語的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_fr_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_fr_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
fr_text = "quels montants ont été attribués et quelles sommes ont été effectivement utilisées dans chaque État membre? 4."
pipeline([fr_text], max_length=512)
🔧 技術細節
訓練數據
legal_t5_small_trans_fr_en
模型在 JRC-ACQUIS、EUROPARL 和 DCEP 數據集上進行訓練,這些數據集包含 500 萬條平行文本。
訓練過程
- 模型在單個 TPU Pod V3 - 8 上總共訓練了 250K 步,使用序列長度 512(批量大小 4096)。
- 它總共有約 2.2 億個參數,採用編碼器 - 解碼器架構進行訓練。
- 使用的優化器是 AdaFactor,並在預訓練時採用逆平方根學習率調度。
預處理
使用來自平行語料庫(所有可能的語言對)的 8800 萬行文本訓練了一個 unigram 模型,以獲得用於此模型的詞彙表(使用字節對編碼)。
📚 詳細文檔
評估結果
當該模型用於翻譯測試數據集時,取得了以下結果:
模型 |
BLEU 分數 |
legal_t5_small_trans_fr_en |
51.44 |
BibTeX 引用和引用信息
Created by Ahmed Elnaggar/@Elnaggar_AI | LinkedIn