t5-translate-vietnamese-nom开源翻译模型 - 免费实现越南喃字与拉丁文字互译

首页

T5 Translate Vietnamese Nom

由 minhtoan 开发

基于Transformer架构的轻量级预训练模型，专为越南喃字与拉丁文字双向翻译设计

机器翻译

Transformers

其他开源协议:MIT #越南喃字翻译 #双向音译 #文化遗产保护

下载量 17

发布时间 : 7/13/2023

模型简介

该模型支持越南古老文字系统喃字与现代越南拉丁文字之间的双向转换，可应用于古籍数字化和文化研究领域。

模型特点

双向翻译能力

支持喃字到拉丁文字及反向转换的双向翻译功能

专业语料训练

基于多部越南古籍和《字喃详解词典》等专业语料库训练

轻量级架构

采用优化的Transformer架构，保持高性能的同时降低资源消耗

模型能力

越南喃字到拉丁文字翻译

拉丁文字到越南喃字转换

古籍文字识别与转换

使用案例

文化保护

古籍数字化

将越南古代文献从喃字转换为现代文字

促进古籍内容的可读性和传播

学术研究

历史文献分析

帮助研究者理解越南古代文献内容

提升历史和文化研究的效率

🚀 双向越南喃字音译模型

本项目提供了一个基于Transformer的编码器 - 解码器模型，用于越南喃字与拉丁字母越南语之间的双向翻译。该模型能够有效解决越南喃字这一古老文字系统的翻译问题，对于传承越南文化遗产具有重要价值。

🚀 快速开始

本模型是基于Transformer的轻量级预训练编码器 - 解码器模型，用于越南喃字翻译。它支持越南喃字与拉丁字母越南语之间的双向翻译，可实现从喃字到拉丁字母越南语的翻译，反之亦然。

✨ 主要特性

文化传承：越南喃字是20世纪前越南的古老书写系统，它从汉字演变而来，适应了越南的语音和词汇，是越南文化遗产的重要组成部分。本模型有助于保存和传承这一古老文字的知识。
双向翻译：支持越南喃字与拉丁字母越南语之间的双向翻译，满足不同场景的需求。
数据丰富：模型在多个数据集上进行训练，包括《Luc - Van - Tien》《金云翘传》《大越史记全书》《征妇吟曲》《胡春香诗集》、chunom.org的语料库文档以及来自130本不同书籍（《Tu - Dien - Chu - Nom - Dan Giai》）的样本文本。

📦 安装指南

暂未提及安装步骤，可参考transformers库的官方安装文档进行安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")  
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "如梅早杏遲管"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output

输出结果：'như mai tảo hạnh trì quán'

高级用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")  
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "như mai tảo hạnh trì quán"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output

输出结果：'如梅早杏遲舘'

📚 详细文档

模型信息

属性	详情
模型类型	基于Transformer的轻量级预训练编码器 - 解码器模型
训练数据	《Luc - Van - Tien》《金云翘传》《大越史记全书》《征妇吟曲》《胡春香诗集》、chunom.org的语料库文档以及来自130本不同书籍（《Tu - Dien - Chu - Nom - Dan Giai》）的样本文本