🚀 legal_t5_small_trans_de_sv模型
legal_t5_small_trans_de_sv模型用于将德语法律文本翻译成瑞典语,为法律文本的跨语言交流提供了高效的解决方案,提升了法律信息传播的便捷性。
🚀 快速开始
legal_t5_small_trans_de_sv模型首次发布于 此仓库,该模型在来自jrc - acquis、europarl和dcep的三个平行语料库上进行训练。以下是在PyTorch中使用该模型将德语法律文本翻译成瑞典语的示例:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_sv"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_sv", do_lower_case=False,
skip_special_tokens=True),
device=0
)
de_text = "Betrifft: Leader-Programm"
pipeline([de_text], max_length=512)
✨ 主要特性
- 基于
t5 - small
模型,在大量平行文本语料库上进行训练。
- 属于较小规模的模型,通过使用
dmodel = 512
、dff = 2,048
、8头注意力机制,且编码器和解码器均仅6层,对t5的基线模型进行了缩放,该变体约有6000万个参数。
📦 安装指南
文档未提及具体安装命令,故跳过此章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_de_sv"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_de_sv", do_lower_case=False,
skip_special_tokens=True),
device=0
)
de_text = "Betrifft: Leader-Programm"
pipeline([de_text], max_length=512)
高级用法
文档未提及高级用法相关代码示例,故跳过此部分。
📚 详细文档
模型描述
legal_t5_small_trans_de_sv基于t5 - small
模型,在大量平行文本语料库上进行训练。这是一个较小的模型,通过使用dmodel = 512
、dff = 2,048
、8头注意力机制,且编码器和解码器均仅6层,对t5的基线模型进行了缩放,该变体约有6000万个参数。
预期用途和限制
该模型可用于将德语法律文本翻译成瑞典语。
训练数据
legal_t5_small_trans_de_sv模型在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 数据集上进行训练,这些数据集包含500万条平行文本。
训练过程
- 模型在单个TPU Pod V3 - 8上总共训练了250K步,使用序列长度512(批量大小4096)。
- 该模型总共约有2.2亿个参数,采用编码器 - 解码器架构进行训练。
- 训练使用的优化器是AdaFactor,并采用平方根倒数学习率调度进行预训练。
预处理
使用从平行语料库(所有可能的语言对)的8800万行文本训练的一元模型来获取词汇表(使用字节对编码),该词汇表用于此模型。
评估结果
当模型用于翻译测试数据集时,取得了以下结果:
模型 |
BLEU分数 |
legal_t5_small_trans_de_sv |
41.69 |
BibTeX引用和引用信息
由 Ahmed Elnaggar/@Elnaggar_AI 创建 | [领英](https://www.linkedin.com/in/prof - ahmed - elnaggar/)
🔧 技术细节
模型基于t5 - small
架构进行缩放,通过特定的参数设置(如dmodel = 512
、dff = 2,048
等)减少了模型规模,同时在多个大规模平行语料库上进行训练,采用编码器 - 解码器架构和AdaFactor优化器,使用平方根倒数学习率调度进行预训练,这些技术细节保证了模型在德语到瑞典语法律文本翻译任务上的性能。
📄 许可证
文档未提及许可证信息,故跳过此章节。