t5-translate-vietnamese-nom開源翻譯模型 - 免費實現越南喃字與拉丁文字互譯

首頁

T5 Translate Vietnamese Nom

由minhtoan開發

基於Transformer架構的輕量級預訓練模型，專為越南喃字與拉丁文字雙向翻譯設計

機器翻譯

Transformers

其他開源協議:MIT #越南喃字翻譯 #雙向音譯 #文化遺產保護

下載量 17

發布時間 : 7/13/2023

模型概述

該模型支持越南古老文字系統喃字與現代越南拉丁文字之間的雙向轉換，可應用於古籍數字化和文化研究領域。

模型特點

雙向翻譯能力

支持喃字到拉丁文字及反向轉換的雙向翻譯功能

專業語料訓練

基於多部越南古籍和《字喃詳解詞典》等專業語料庫訓練

輕量級架構

採用優化的Transformer架構，保持高性能的同時降低資源消耗

模型能力

越南喃字到拉丁文字翻譯

拉丁文字到越南喃字轉換

古籍文字識別與轉換

使用案例

文化保護

古籍數字化

將越南古代文獻從喃字轉換為現代文字

促進古籍內容的可讀性和傳播

學術研究

歷史文獻分析

幫助研究者理解越南古代文獻內容

提升歷史和文化研究的效率

🚀 雙向越南喃字音譯模型

本項目提供了一個基於Transformer的編碼器 - 解碼器模型，用於越南喃字與拉丁字母越南語之間的雙向翻譯。該模型能夠有效解決越南喃字這一古老文字系統的翻譯問題，對於傳承越南文化遺產具有重要價值。

🚀 快速開始

本模型是基於Transformer的輕量級預訓練編碼器 - 解碼器模型，用於越南喃字翻譯。它支持越南喃字與拉丁字母越南語之間的雙向翻譯，可實現從喃字到拉丁字母越南語的翻譯，反之亦然。

✨ 主要特性

文化傳承：越南喃字是20世紀前越南的古老書寫系統，它從漢字演變而來，適應了越南的語音和詞彙，是越南文化遺產的重要組成部分。本模型有助於保存和傳承這一古老文字的知識。
雙向翻譯：支持越南喃字與拉丁字母越南語之間的雙向翻譯，滿足不同場景的需求。
數據豐富：模型在多個數據集上進行訓練，包括《Luc - Van - Tien》《金雲翹傳》《大越史記全書》《徵婦吟曲》《胡春香詩集》、chunom.org的語料庫文檔以及來自130本不同書籍（《Tu - Dien - Chu - Nom - Dan Giai》）的樣本文本。

📦 安裝指南

暫未提及安裝步驟，可參考transformers庫的官方安裝文檔進行安裝。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")  
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "如梅早杏遲管"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output

輸出結果：'như mai tảo hạnh trì quán'

高級用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")  
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "như mai tảo hạnh trì quán"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output

輸出結果：'如梅早杏遲舘'

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於Transformer的輕量級預訓練編碼器 - 解碼器模型
訓練數據	《Luc - Van - Tien》《金雲翹傳》《大越史記全書》《徵婦吟曲》《胡春香詩集》、chunom.org的語料庫文檔以及來自130本不同書籍（《Tu - Dien - Chu - Nom - Dan Giai》）的樣本文本