🚀 legal_t5_small_multitask_sv_it模型
该模型用于将瑞典语法律文本翻译成意大利语。它首次发布于 此仓库。该模型在来自 JRC-ACQUIS、EUROPARL 和 DCEP 的 42 种语言对的三个平行语料库上进行并行训练,同时还进行了无监督任务,即模型在掩码语言模型中执行预测任务。
🚀 快速开始
该模型可用于将瑞典语法律文本翻译成意大利语。以下是在 PyTorch 中使用该模型进行翻译的示例代码:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_multitask_sv_it"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_multitask_sv_it", do_lower_case=False,
skip_special_tokens=True),
device=0
)
sv_text = "De nationella tillsynsmyndigheterna får använda"
pipeline([sv_text], max_length=512)
✨ 主要特性
- 无需预训练,通过将无监督任务与所有翻译任务相结合,实现多任务学习场景。
- 在三个平行语料库上进行并行训练,涵盖 42 种语言对。
📦 安装指南
文档未提及安装步骤,可参考 transformers
库的官方安装指南进行安装。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_multitask_sv_it"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_multitask_sv_it", do_lower_case=False,
skip_special_tokens=True),
device=0
)
sv_text = "De nationella tillsynsmyndigheterna får använda"
pipeline([sv_text], max_length=512)
📚 详细文档
模型描述
legal_t5_small_multitask_sv_it 模型不涉及预训练,而是将无监督任务与所有翻译任务相结合,以实现多任务学习场景。
预期用途和限制
该模型可用于将瑞典语法律文本翻译成意大利语。
训练数据
legal_t5_small_multitask_sv_it 模型(监督任务仅涉及相应的语言对,无监督任务则可使用所有语言对的数据)在 JRC-ACQUIS、EUROPARL 和 DCEP 数据集上进行训练,这些数据集包含 800 万条平行文本。
训练过程
该模型在单个 TPU Pod V3-8 上总共训练了 250K 步,使用序列长度为 512(批量大小为 4096)。它总共有约 2.2 亿个参数,并使用编码器 - 解码器架构进行训练。使用的优化器是 AdaFactor,学习率采用逆平方根调度。
预处理
使用来自平行语料库(所有可能的语言对)的 8800 万行文本训练了一个 unigram 模型,以获取词汇表(使用字节对编码),该词汇表用于此模型。
评估结果
当使用该模型进行翻译测试数据集时,取得了以下结果:
模型 |
BLEU 分数 |
legal_t5_small_multitask_sv_it |
44.242 |
🔧 技术细节
- 模型在三个平行语料库上进行并行训练,同时进行无监督任务,以实现多任务学习。
- 不涉及预训练,通过结合无监督任务和翻译任务实现多任务学习。
- 使用 unigram 模型进行预处理,获取词汇表。
- 在单个 TPU Pod V3-8 上进行训练,使用 AdaFactor 优化器和逆平方根学习率调度。
📄 许可证
文档未提及许可证信息。
BibTeX 引用和引用信息
由 Ahmed Elnaggar/@Elnaggar_AI 创建 | LinkedIn