🚀 🌊 濟州語、標準語雙向翻譯模型
本項目是一個濟州語與標準語的雙向翻譯模型,能夠實現兩種語言之間的高效準確翻譯,為語言交流和文化傳播提供有力支持。
🚀 快速開始
你可以使用 transformers
庫來使用這個模型進行推理。下面是如何加載模型並生成翻譯的示例:
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("Junhoee/Kobart-Jeju-translation")
model = AutoModelForSeq2SeqLM.from_pretrained("Junhoee/Kobart-Jeju-translation").to(device)
input_text = "[표준] 안녕하세요"
input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).input_ids.to(device)
outputs = model.generate(input_ids, max_length=64)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)
Model Output: 안녕하수꽈
高級用法
input_text = "[제주] 안녕하수꽈"
input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).input_ids.to(device)
outputs = model.generate(input_ids, max_length=64)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)
Model Output: 안녕하세요
✨ 主要特性
- 雙向翻譯:支持濟州語和標準語的雙向翻譯。
- 多數據源訓練:使用了AI-Hub、Github等多個數據源的約93萬條數據進行訓練。
📦 安裝指南
暫未提及具體安裝步驟,可參考 transformers
庫的安裝方法。
📚 詳細文檔
團隊成員
- Bitamin 12期:具俊會、李瑟賢、李藝琳
- Bitamin 13期:金允英、金宰兼、李形錫
Github鏈接
- https://github.com/junhoeKu/Jeju_Translation.github.io
父模型
- gogamza/kobart-base-v2
- https://huggingface.co/gogamza/kobart-base-v2
數據集 - 約93萬個行
- AI-Hub(濟州語發言數據 + 中年層方言發言數據)
- Github(카카오브레인 JIT 數據)
- 其他
- 濟州語詞典數據(從濟州道廳官網爬取)
- 歌詞翻譯數據(從“뭐랭하맨”油管逐一收集)
- 圖書數據(從《濟州方言的味道與魅力》《부에나도 지꺼져도》等圖書逐一收集)
- 2018年度濟州語口述資料集(逐一收集 - 用作評估數據)
超參數
- 訓練輪數(Epoch):3 epochs
- 學習率(Learning Rate):2e-5
- 權重衰減(Weight Decay):0.01
- 批次大小(Batch Size):32
Bleu得分
-
以2018濟州語口述資料集數據為基準
- 濟州語 -> 標準語:0.76
- 標準語 -> 濟州語:0.5
-
以AI-Hub濟州語發言數據的驗證數據為基準
- 濟州語 -> 標準語:0.89
- 標準語 -> 濟州語:0.77
貢獻者信息
- 具俊會:kujoon13413@gmail.com
- 金允英:202000872@hufs.ac.kr
- 金宰兼:worua5667@inha.edu
- 李瑟賢:rlaorrn0123@sookmyung.ac.kr
- 李藝琳:i75631928@gmail.com
- 李形錫:gudtjr3638@gmail.com
🔧 技術細節
本模型基於 gogamza/kobart-base-v2
父模型進行訓練,使用了約93萬條來自多個數據源的訓練數據。在訓練過程中,設置了3個訓練輪數,學習率為2e-5,權重衰減為0.01,批次大小為32。通過在不同數據集上的測試,得到了相應的Bleu得分,證明了模型在濟州語和標準語雙向翻譯上的有效性。