🚀 legal_t5_small_trans_es_en_small_finetuned模型
该模型用于将法律文本从西班牙语翻译成英语。它首次发布于 此仓库。此模型先在所有翻译数据上针对一些无监督任务进行预训练,然后在来自jrc - acquis、europarl和dcep的三个平行语料库上进行训练。
✨ 主要特性
- 专为西班牙语到英语的法律文本翻译设计。
- 基于
t5 - small
模型,在大规模平行文本语料库上训练。
- 是一个较小的模型,通过使用
dmodel = 512
、dff = 2,048
、8头注意力机制,且编码器和解码器各只有6层,缩小了t5基线模型的规模,约有6000万个参数。
📦 安装指南
文档中未提及具体安装步骤,可参考transformers
库的安装方式,使用以下命令安装:
pip install transformers
💻 使用示例
基础用法
以下是如何在PyTorch中使用该模型将法律文本从西班牙语翻译成英语的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_es_en_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_es_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
es_text = "de Jonas Sjöstedt (GUE/NGL)"
pipeline([es_text], max_length=512)
📚 详细文档
模型描述
legal_t5_small_trans_es_en_small_finetuned最初在训练集的所有数据上针对无监督任务进行预训练,该无监督任务是“掩码语言建模”。它基于t5 - small
模型,在大规模平行文本语料库上进行训练。
预期用途和限制
该模型可用于将法律文本从西班牙语翻译成英语。
训练数据
legal_t5_small_trans_es_en_small_finetuned模型(包括仅涉及相应语言对的监督任务,以及所有语言对数据都可用的无监督任务)在[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL和[DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep)数据集上进行训练,这些数据集包含900万条平行文本。
训练过程
- 该模型在单个TPU Pod V3 - 8上总共训练了250K步,使用序列长度512(批量大小4096)。
- 它总共有约2.2亿个参数,采用编码器 - 解码器架构进行训练。
- 预训练使用的优化器是AdaFactor,采用逆平方根学习率调度。
预处理
使用从平行语料库(所有可能的语言对)的8800万行文本训练的一元模型来获取词汇表(使用字节对编码),并将其用于该模型。
预训练
预训练数据是所有42种语言对的组合数据。模型的任务是预测句子中随机掩码的部分。
评估结果
当该模型用于翻译测试数据集时,取得了以下结果:
模型 |
BLEU分数 |
legal_t5_small_trans_es_en_small_finetuned |
54.481 |
BibTeX引用和引用信息
由 Ahmed Elnaggar/@Elnaggar_AI 创建 | [领英](https://www.linkedin.com/in/prof - ahmed - elnaggar/)
🔧 技术细节
该模型基于t5 - small
架构,通过调整参数如dmodel = 512
、dff = 2,048
、8头注意力机制以及编码器和解码器各6层,缩小了模型规模。在训练过程中,先进行无监督的掩码语言建模预训练,再在特定的平行语料库上进行监督训练,使用AdaFactor优化器和逆平方根学习率调度,以实现从西班牙语到英语的法律文本翻译。