🚀 双向越南喃字音译模型
本项目提供了一个基于Transformer的编码器 - 解码器模型,用于越南喃字与拉丁字母越南语之间的双向翻译。该模型能够有效解决越南喃字这一古老文字系统的翻译问题,对于传承越南文化遗产具有重要价值。
🚀 快速开始
本模型是基于Transformer的轻量级预训练编码器 - 解码器模型,用于越南喃字翻译。它支持越南喃字与拉丁字母越南语之间的双向翻译,可实现从喃字到拉丁字母越南语的翻译,反之亦然。
✨ 主要特性
- 文化传承:越南喃字是20世纪前越南的古老书写系统,它从汉字演变而来,适应了越南的语音和词汇,是越南文化遗产的重要组成部分。本模型有助于保存和传承这一古老文字的知识。
- 双向翻译:支持越南喃字与拉丁字母越南语之间的双向翻译,满足不同场景的需求。
- 数据丰富:模型在多个数据集上进行训练,包括《Luc - Van - Tien》《金云翘传》《大越史记全书》《征妇吟曲》《胡春香诗集》、chunom.org的语料库文档以及来自130本不同书籍(《Tu - Dien - Chu - Nom - Dan Giai》)的样本文本。
📦 安装指南
暂未提及安装步骤,可参考transformers
库的官方安装文档进行安装。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "如梅早杏遲管"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output
输出结果:'như mai tảo hạnh trì quán'
高级用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "như mai tảo hạnh trì quán"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output
输出结果:'如梅早杏遲舘'
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
基于Transformer的轻量级预训练编码器 - 解码器模型 |
训练数据 |
《Luc - Van - Tien》《金云翘传》《大越史记全书》《征妇吟曲》《胡春香诗集》、chunom.org的语料库文档以及来自130本不同书籍(《Tu - Dien - Chu - Nom - Dan Giai》)的样本文本 |
推理参数
推理时可设置max_length
参数,默认值为48。
🔧 技术细节
本模型是基于Transformer架构的编码器 - 解码器模型,在多个越南喃字相关的数据集上进行训练,以实现高效准确的双向翻译。
📄 许可证
本项目采用MIT许可证。
👨💻 作者
Phan Minh Toan