🚀 雙向越南喃字音譯模型
本項目提供了一個基於Transformer的編碼器 - 解碼器模型,用於越南喃字與拉丁字母越南語之間的雙向翻譯。該模型能夠有效解決越南喃字這一古老文字系統的翻譯問題,對於傳承越南文化遺產具有重要價值。
🚀 快速開始
本模型是基於Transformer的輕量級預訓練編碼器 - 解碼器模型,用於越南喃字翻譯。它支持越南喃字與拉丁字母越南語之間的雙向翻譯,可實現從喃字到拉丁字母越南語的翻譯,反之亦然。
✨ 主要特性
- 文化傳承:越南喃字是20世紀前越南的古老書寫系統,它從漢字演變而來,適應了越南的語音和詞彙,是越南文化遺產的重要組成部分。本模型有助於保存和傳承這一古老文字的知識。
- 雙向翻譯:支持越南喃字與拉丁字母越南語之間的雙向翻譯,滿足不同場景的需求。
- 數據豐富:模型在多個數據集上進行訓練,包括《Luc - Van - Tien》《金雲翹傳》《大越史記全書》《徵婦吟曲》《胡春香詩集》、chunom.org的語料庫文檔以及來自130本不同書籍(《Tu - Dien - Chu - Nom - Dan Giai》)的樣本文本。
📦 安裝指南
暫未提及安裝步驟,可參考transformers
庫的官方安裝文檔進行安裝。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "如梅早杏遲管"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output
輸出結果:'như mai tảo hạnh trì quán'
高級用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "như mai tảo hạnh trì quán"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output
輸出結果:'如梅早杏遲舘'
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
基於Transformer的輕量級預訓練編碼器 - 解碼器模型 |
訓練數據 |
《Luc - Van - Tien》《金雲翹傳》《大越史記全書》《徵婦吟曲》《胡春香詩集》、chunom.org的語料庫文檔以及來自130本不同書籍(《Tu - Dien - Chu - Nom - Dan Giai》)的樣本文本 |
推理參數
推理時可設置max_length
參數,默認值為48。
🔧 技術細節
本模型是基於Transformer架構的編碼器 - 解碼器模型,在多個越南喃字相關的數據集上進行訓練,以實現高效準確的雙向翻譯。
📄 許可證
本項目採用MIT許可證。
👨💻 作者
Phan Minh Toan