Kobart-Jeju-translation開源翻譯模型 - 免費實現濟州語與標準韓語互譯

首頁

Kobart Jeju Translation

由Junhoee開發

基於Kobart架構的濟州語與標準韓語雙向翻譯模型，支持兩種語言間的互譯

機器翻譯

Transformers

韓語#韓語方言翻譯 #雙向翻譯 #低資源優化

下載量 88

發布時間 : 5/31/2024

模型概述

該模型專門用於濟州語和標準韓語之間的雙向翻譯，通過添加方向標識符實現自動識別翻譯方向

模型特點

雙向翻譯能力

支持濟州語與標準韓語之間的雙向互譯，通過添加方向標識符自動識別翻譯方向

大規模訓練數據

使用約93萬條濟州語-標準韓語平行語料進行訓練

方向標識符設計

採用[제주]和[표준]前綴標識翻譯方向，簡化用戶操作

模型能力

濟州語到標準韓語翻譯

標準韓語到濟州語翻譯

方言保護與傳承

使用案例

語言保護

濟州語數字化保存

將瀕危的濟州方言轉化為標準韓語進行記錄

有助於保存韓國非物質文化遺產

文化交流

濟州文化內容翻譯

翻譯濟州傳統歌謠、民間故事等文化內容

促進濟州文化的傳播與理解

🚀 🌊 濟州語、標準語雙向翻譯模型

本項目是一個濟州語與標準語的雙向翻譯模型，能夠實現兩種語言之間的高效準確翻譯，為語言交流和文化傳播提供有力支持。

🚀 快速開始

你可以使用 transformers 庫來使用這個模型進行推理。下面是如何加載模型並生成翻譯的示例：

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

## Set up the device (GPU or CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

## Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Junhoee/Kobart-Jeju-translation")
model = AutoModelForSeq2SeqLM.from_pretrained("Junhoee/Kobart-Jeju-translation").to(device)

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).input_ids.to(device)

## Generate the translation
outputs = model.generate(input_ids, max_length=64)

## Decode and print the output
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)

Model Output: 안녕하수꽈

高級用法

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[제주] 안녕하수꽈"

## Tokenize the input text
input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).input_ids.to(device)

## Generate the translation
outputs = model.generate(input_ids, max_length=64)

## Decode and print the output
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)

Model Output: 안녕하세요

✨ 主要特性

雙向翻譯：支持濟州語和標準語的雙向翻譯。
多數據源訓練：使用了AI-Hub、Github等多個數據源的約93萬條數據進行訓練。

📦 安裝指南

暫未提及具體安裝步驟，可參考 transformers 庫的安裝方法。

📚 詳細文檔

團隊成員

Bitamin 12期：具俊會、李瑟賢、李藝琳
Bitamin 13期：金允英、金宰兼、李形錫

Github鏈接

https://github.com/junhoeKu/Jeju_Translation.github.io

父模型

gogamza/kobart-base-v2
https://huggingface.co/gogamza/kobart-base-v2

數據集 - 約93萬個行

AI-Hub（濟州語發言數據 + 中年層方言發言數據）
Github（카카오브레인 JIT 數據）
其他
- 濟州語詞典數據（從濟州道廳官網爬取）
- 歌詞翻譯數據（從“뭐랭하맨”油管逐一收集）
- 圖書數據（從《濟州方言的味道與魅力》《부에나도 지꺼져도》等圖書逐一收集）
- 2018年度濟州語口述資料集（逐一收集 - 用作評估數據）

超參數

訓練輪數（Epoch）：3 epochs
學習率（Learning Rate）：2e-5
權重衰減（Weight Decay）：0.01
批次大小（Batch Size）：32

Bleu得分

以2018濟州語口述資料集數據為基準
- 濟州語 -> 標準語：0.76
- 標準語 -> 濟州語：0.5
以AI-Hub濟州語發言數據的驗證數據為基準
- 濟州語 -> 標準語：0.89
- 標準語 -> 濟州語：0.77

貢獻者信息

具俊會：kujoon13413@gmail.com
金允英：202000872@hufs.ac.kr
金宰兼：worua5667@inha.edu
李瑟賢：rlaorrn0123@sookmyung.ac.kr
李藝琳：i75631928@gmail.com
李形錫：gudtjr3638@gmail.com

🔧 技術細節

本模型基於 gogamza/kobart-base-v2 父模型進行訓練，使用了約93萬條來自多個數據源的訓練數據。在訓練過程中，設置了3個訓練輪數，學習率為2e-5，權重衰減為0.01，批次大小為32。通過在不同數據集上的測試，得到了相應的Bleu得分，證明了模型在濟州語和標準語雙向翻譯上的有效性。