legal_t5_small_trans_de_en开源模型 - 免费实现法律文本德语到英语翻译

首页

Legal T5 Small Trans De En

由 SEBIS 开发

该模型用于将法律文本从德语翻译成英语，基于t5-small架构训练，适用于法律文档翻译任务。

机器翻译 #法律文本翻译 #德语转英语 #欧盟法律专用

下载量 18

发布时间 : 3/2/2022

模型简介

基于T5-small架构的法律文本翻译模型，专门用于德语到英语的法律文档翻译，训练于JRC-ACQUIS、EUROPARL和DCEP等法律平行语料库。

模型特点

法律领域专业化

专门针对法律文本训练，能准确处理法律术语和复杂句式。

多语料库训练

在JRC-ACQUIS、EUROPARL和DCEP三大法律平行语料库上训练，覆盖广泛法律文本类型。

高效小模型

基于T5-small架构优化，在保持性能的同时减少计算资源需求。

模型能力

法律文本翻译

术语准确转换

复杂句式处理

使用案例

法律文档翻译

欧盟法律文件翻译

将欧盟法律文件从德语准确翻译为英语

BLEU评分49.1

企业合同翻译

翻译德语合同文件为英语版本

🚀 legal_t5_small_trans_de_en模型

该模型用于将德语法律文本翻译成英语。它首次发布于此仓库。此模型在来自jrc - acquis、europarl和dcep的三个平行语料库上进行训练。

🚀 快速开始

legal_t5_small_trans_de_en模型可用于将德语法律文本翻译成英语。以下是在PyTorch中使用该模型的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_en", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

de_text = "Eisenbahnunternehmen müssen Fahrkarten über mindestens einen der folgenden Vertriebswege anbieten: an Fahrkartenschaltern oder Fahrkartenautomaten, per Telefon, Internet oder jede andere in weitem Umfang verfügbare Informationstechnik oder in den Zügen."

pipeline([de_text], max_length=512)

✨ 主要特性

基于t5 - small模型，在大量平行文本语料库上进行训练。
是一个较小的模型，通过使用dmodel = 512、dff = 2,048、8头注意力机制，且编码器和解码器各只有6层，对t5的基线模型进行了缩减。此变体约有6000万个参数。
可用于德语法律文本到英语的翻译。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_en", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

de_text = "Eisenbahnunternehmen müssen Fahrkarten über mindestens einen der folgenden Vertriebswege anbieten: an Fahrkartenschaltern oder Fahrkartenautomaten, per Telefon, Internet oder jede andere in weitem Umfang verfügbare Informationstechnik oder in den Zügen."

pipeline([de_text], max_length=512)

📚 详细文档

模型描述

legal_t5_small_trans_de_en基于t5 - small模型，并在大量平行文本语料库上进行训练。这是一个较小的模型，通过使用dmodel = 512、dff = 2,048、8头注意力机制，且编码器和解码器各只有6层，对t5的基线模型进行了缩减。此变体约有6000万个参数。

预期用途和局限性

该模型可用于将德语法律文本翻译成英语。

训练数据

legal_t5_small_trans_de_en模型在JRC - ACQUIS、EUROPARL和DCEP数据集上进行训练，这些数据集包含500万条平行文本。

训练过程

该模型在单个TPU Pod V3 - 8上总共训练了250K步，使用序列长度为512（批量大小为4096）。它总共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。使用的优化器是AdaFactor，预训练采用逆平方根学习率调度。

预处理

使用从平行语料库（所有可能的语言对）的8800万行文本训练的一元模型来获取词汇表（使用字节对编码），该词汇表与此模型一起使用。

预训练

文档未详细说明预训练内容。

评估结果

当该模型用于翻译测试数据集时，取得了以下结果：

模型	BLEU分数
legal_t5_small_trans_de_en	49.1

BibTeX引用和引用信息

Created by Ahmed Elnaggar/@Elnaggar_AI | LinkedIn

🔧 技术细节

该模型基于t5 - small模型进行改进，在模型规模上进行了缩减，使用了特定的参数设置（dmodel = 512、dff = 2,048、8头注意力机制，编码器和解码器各6层），并在特定的数据集上进行训练，采用了特定的训练架构（编码器 - 解码器架构）和优化器（AdaFactor）以及学习率调度（逆平方根学习率调度）。这些技术细节使得模型在德语法律文本到英语的翻译任务中具有一定的性能表现。