🚀 legal_t5_small_trans_fr_en 模型
本模型用于将法语法律文本翻译成英语。它首次发布于 此仓库。该模型在来自 JRC-ACQUIS、EUROPARL 和 DCEP 的三个平行语料库上进行训练。
📦 模型信息
属性 |
详情 |
语言 |
法语、英语 |
标签 |
法英翻译模型 |
训练数据集 |
JRC-ACQUIS、EUROPARL、DCEP |
✨ 主要特性
- 基于
t5-small
模型,在大型平行文本语料库上进行训练。
- 是一个较小的模型,通过使用
dmodel = 512
、dff = 2,048
、8 头注意力机制,且编码器和解码器各仅 6 层,对 t5 的基线模型进行了缩减。
- 此变体约有 6000 万个参数。
🚀 快速开始
本模型可用于将法语法律文本翻译成英语。
💻 使用示例
基础用法
以下是如何在 PyTorch 中使用此模型将法语法律文本翻译成英语的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_fr_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_fr_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
fr_text = "quels montants ont été attribués et quelles sommes ont été effectivement utilisées dans chaque État membre? 4."
pipeline([fr_text], max_length=512)
🔧 技术细节
训练数据
legal_t5_small_trans_fr_en
模型在 JRC-ACQUIS、EUROPARL 和 DCEP 数据集上进行训练,这些数据集包含 500 万条平行文本。
训练过程
- 模型在单个 TPU Pod V3 - 8 上总共训练了 250K 步,使用序列长度 512(批量大小 4096)。
- 它总共有约 2.2 亿个参数,采用编码器 - 解码器架构进行训练。
- 使用的优化器是 AdaFactor,并在预训练时采用逆平方根学习率调度。
预处理
使用来自平行语料库(所有可能的语言对)的 8800 万行文本训练了一个 unigram 模型,以获得用于此模型的词汇表(使用字节对编码)。
📚 详细文档
评估结果
当该模型用于翻译测试数据集时,取得了以下结果:
模型 |
BLEU 分数 |
legal_t5_small_trans_fr_en |
51.44 |
BibTeX 引用和引用信息
Created by Ahmed Elnaggar/@Elnaggar_AI | LinkedIn