🚀 legal_t5_small_trans_de_es模型
这是一个用于将德语法律文本翻译成西班牙语的模型,为法律文本的跨语言交流提供了高效的解决方案。
🚀 快速开始
legal_t5_small_trans_de_es 模型可用于将德语法律文本翻译成西班牙语。它首次发布于 此仓库,并在来自 jrc - acquis、europarl 和 dcep 的三个平行语料库上进行了训练。
✨ 主要特性
- 基于
t5 - small
架构:该模型基于t5 - small
模型构建,通过使用dmodel = 512
、dff = 2,048
、8 头注意力机制,并且编码器和解码器各仅 6 层,对 t5 的基线模型进行了缩小。此变体约有 6000 万个参数。
- 多语料库训练:在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 数据集上进行训练,这些数据集包含 500 万条平行文本。
📦 安装指南
暂未提及具体安装步骤,可参考transformers
库的安装说明来使用该模型。
💻 使用示例
基础用法
以下是如何在 PyTorch 中使用此模型将德语法律文本翻译成西班牙语的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_es"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_es", do_lower_case=False,
skip_special_tokens=True),
device=0
)
de_text = "7. betont, dass die Kommission und die Mitgliedstaaten die Rolle der Frauen in der Sozialwirtschaft aufgrund der hohen Frauenerwerbstätigkeit in dem Sektor und der Bedeutung der Dienstleistungen, die er für die Förderung der Vereinbarkeit von Beruf und Privatleben bietet, aufwerten, unterstützen und verstärken müssen;"
pipeline([de_text], max_length=512)
📚 详细文档
训练数据
legal_t5_small_trans_de_es 模型在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 数据集上进行训练,这些数据集包含 500 万条平行文本。
训练过程
- 该模型在单个 TPU Pod V3 - 8 上总共训练了 250K 步,使用序列长度 512(批量大小 4096)。
- 它总共有约 2.2 亿个参数,采用编码器 - 解码器架构进行训练。
- 使用的优化器是 AdaFactor,并采用逆平方根学习率调度进行预训练。
预处理
使用从平行语料库(所有可能的语言对)中 8800 万行文本训练的 unigram 模型来获取词汇表(使用字节对编码),该词汇表与此模型一起使用。
预训练
文档未详细提及预训练的具体内容。
评估结果
当该模型用于翻译测试数据集时,取得了以下结果:
模型 |
BLEU 分数 |
legal_t5_small_trans_de_es |
47.24 |
BibTeX 引用和引用信息
Created by Ahmed Elnaggar/@Elnaggar_AI | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)