legal_t5_small_trans_cs_de_small_finetuned开源模型 - 免费实现捷克语法律文本到德语翻译

首页

Legal T5 Small Trans Cs De Small Finetuned

由 SEBIS 开发

该模型用于将法律文本从捷克语翻译成德语，基于T5-small架构进行微调训练。

机器翻译 #法律文本翻译 #捷克语转德语 #欧盟法律专用

下载量 18

发布时间 : 3/2/2022

模型简介

专门针对捷克语法律文本到德语翻译的序列到序列模型，在JRC-ACQUIS、EUROPARL和DCEP等法律平行语料库上训练。

模型特点

法律领域专业化

针对法律文本的术语和句式特点进行优化训练

多数据集联合训练

整合JRC-ACQUIS、EUROPARL和DCEP三大法律平行语料库

两阶段训练策略

先通过无监督预训练学习通用特征，再进行有监督微调

模型能力

法律文本翻译

跨语言语义转换

专业术语处理

使用案例

法律文书翻译

欧盟法律文件翻译

将捷克语版欧盟法律条文翻译为德语版本

BLEU评分44.175（测试集）

跨境法律合规

帮助企业快速理解捷克法律要求的德语翻译

🚀 legal_t5_small_trans_cs_de_small_finetuned模型

legal_t5_small_trans_cs_de_small_finetuned模型用于将法律文本从捷克语翻译成德语。该模型首次发布于此仓库。它先在所有翻译数据上针对一些无监督任务进行预训练，然后在来自jrc - acquis、europarl和dcep的三个平行语料库上进行训练。

🚀 快速开始

如何使用

以下是在PyTorch中使用此模型将法律文本从捷克语翻译成德语的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_cs_de_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_cs_de", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

cs_text = "Vzhledem k tomu, že tento právní předpis bude přímo použitelný v členských státech a zavede mnoho povinností pro ty, na něž se vztahuje, je žádoucí, aby se jim poskytlo více času na přizpůsobení se těmto novým pravidlům."

pipeline([cs_text], max_length=512)

✨ 主要特性

该模型专为法律文本的捷克语到德语翻译而设计。
基于t5 - small模型，是一个较小规模的模型，通过使用dmodel = 512、dff = 2,048、8头注意力机制，且编码器和解码器各仅6层，对t5的基线模型进行了缩减，约有6000万个参数。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_cs_de_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_cs_de", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

cs_text = "Vzhledem k tomu, že tento právní předpis bude přímo použitelný v členských státech a zavede mnoho povinností pro ty, na něž se vztahuje, je žádoucí, aby se jim poskytlo více času na přizpůsobení se těmto novým pravidlům."

pipeline([cs_text], max_length=512)

高级用法

文档未提及高级用法示例，暂不提供。

📚 详细文档

模型描述

legal_t5_small_trans_cs_de_small_finetuned最初在训练集的所有数据上针对无监督任务进行预训练，该无监督任务为“掩码语言建模”。它基于t5 - small模型，并在大量平行文本语料库上进行训练。

预期用途和局限性

该模型可用于将法律文本从捷克语翻译成德语。

🔧 技术细节

训练数据

legal_t5_small_trans_cs_de_small_finetuned模型（涉及仅对应语言对的有监督任务以及所有语言对数据都可用的无监督任务）在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 数据集上进行训练，这些数据集包含500万个平行文本。

训练过程

该模型在单个TPU Pod V3 - 8上总共训练了250K步，使用序列长度512（批量大小4096）。它总共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，采用逆平方根学习率调度。

预处理

使用从平行语料库（所有可能的语言对）的8800万行文本训练的一元模型来获取词汇表（使用字节对编码），该词汇表与此模型一起使用。

预训练

预训练数据是所有42种语言对的组合数据。模型的任务是预测句子中随机掩码的部分。

评估结果

当该模型用于翻译测试数据集时，取得了以下结果：

模型	BLEU分数
legal_t5_small_trans_cs_de_small_finetuned	44.175

BibTeX引用和引用信息

由 Ahmed Elnaggar/@Elnaggar_AI 创建 | [LinkedIn](https://www.linkedin.com/in/prof - ahmed - elnaggar/)

📄 许可证

文档未提及许可证信息，暂不提供。

信息表格

属性	详情
模型类型	legal_t5_small_trans_cs_de_small_finetuned，用于捷克语到德语的法律文本翻译模型
训练数据	[JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 数据集，包含500万个平行文本