🚀 legal_t5_small_multitask_sv_en模型
legal_t5_small_multitask_sv_en是一个用于将瑞典语法律文本翻译成英语的模型。它首次发布于 此仓库。该模型在来自jrc - acquis、europarl和dcep的三个平行语料库上进行并行训练,涵盖42种语言对。同时,模型还参与了无监督任务,遵循掩码语言模型的预测任务。
✨ 主要特性
- 无需预训练,将无监督任务与所有翻译任务相结合,实现多任务学习。
- 可用于将瑞典语法律文本翻译成英语。
📦 安装指南
文档中未提及具体安装步骤,可参考transformers
库的安装方式,使用以下命令安装:
pip install transformers
💻 使用示例
基础用法
以下是如何在PyTorch中使用此模型将瑞典语法律文本翻译成英语的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_multitask_sv_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_multitask_sv_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
sv_text = "inlämnat av följande ledamöter:"
pipeline([sv_text], max_length=512)
📚 详细文档
模型描述
legal_t5_small_multitask_sv_en模型不涉及预训练,而是将无监督任务添加到所有翻译任务中,以实现多任务学习场景。
预期用途和限制
该模型可用于将瑞典语法律文本翻译成英语。
训练数据
legal_t5_small_multitask_sv_en模型(监督任务仅涉及相应的语言对,无监督任务则可使用所有语言对的数据)在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 数据集上进行训练,这些数据集包含900万条平行文本。
训练过程
- 模型在单个TPU Pod V3 - 8上总共训练了250K步,使用序列长度512(批量大小4096)。
- 该模型总共有约2.2亿个参数,采用编码器 - 解码器架构进行训练。
- 使用的优化器是AdaFactor,学习率调度采用平方根倒数策略。
预处理
使用来自平行语料库(所有可能的语言对)的8800万行文本训练了一个一元模型,以获取词汇表(使用字节对编码),该词汇表与此模型一起使用。
评估结果
当模型用于翻译测试数据集时,取得了以下结果:
模型 |
BLEU分数 |
legal_t5_small_multitask_sv_en |
36.195 |
BibTeX引用和引用信息
Created by Ahmed Elnaggar/@Elnaggar_AI | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)