Taigi-Llama-2-Translator-7B開源翻譯模型 - 免費實現臺語、繁中、英語互譯

Home

Taigi Llama 2 Translator 7B

Developed by Bohanlu

基於臺語-Llama-2系列模型構建，專注於臺灣閩南語與繁體中文、英語之間的翻譯任務。

機器翻譯

Transformers

#閩南語多書寫翻譯 #中英臺語互譯 #漢字白話字轉換

Downloads 1,915

Release Time : 5/13/2024

Model Overview

該模型通過在263k平行數據上微調，支持臺灣閩南語（漢字、白話字、漢羅）、繁體中文和英語之間的相互翻譯。

Model Features

多語言翻譯

支持繁體中文或英語與臺灣閩南語（漢字、白話字、漢羅）之間的翻譯，也支持臺灣閩南語不同書寫系統之間的轉換。

多書寫系統支持

支持臺灣閩南語的三種書寫形式：漢字(HAN)、白話字(POJ)和漢羅(HL)。

大規模訓練數據

基於263k平行數據進行微調，確保翻譯質量。

Model Capabilities

文本翻譯

多語言轉換

書寫系統轉換

Use Cases

語言翻譯

英語到臺灣閩南語翻譯

將英語文本翻譯為臺灣閩南語的不同書寫形式

How are you today? → 你今仔日好無？(漢字)

繁體中文到臺灣閩南語翻譯

將繁體中文文本翻譯為臺灣閩南語的不同書寫形式

書寫系統轉換

漢字到白話字轉換

將臺灣閩南語的漢字形式轉換為白話字形式

🚀 臺語- Llama - 2 翻譯器 7B 模型

臺語- Llama - 2 翻譯器系列基於臺語- Llama - 2 系列模型構建。我們在 263k 平行數據上進行了微調，創建了一個用於臺灣閩南語及相關語言的翻譯模型。

🚀 快速開始

臺語- Llama - 2 翻譯器系列模型基於臺語- Llama - 2 系列模型構建，通過在 263k 平行數據上微調，打造出可用於臺灣閩南語及相關語言的翻譯模型。

如需更多詳細信息，請參考我們的 GitHub 倉庫和論文：Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems。

您還可以在臺灣閩南語大語言模型集合中探索其他模型和數據集。

✨ 主要特性

多語言翻譯：該模型可用於繁體中文或英語與臺灣閩南語（漢字、白話字、漢羅）之間的翻譯，也支持臺灣閩南語不同書寫系統（漢字、白話字、漢羅）之間的翻譯。
語言支持：支持臺灣閩南語（漢字、白話字和漢羅）、繁體中文和英語。
輸入輸出：輸入源語言文本，輸出目標語言文本。
模型規模：具有 70 億參數。

📚 詳細文檔

模型描述

屬性	詳情
基礎模型	Bohanlu/Taigi-Llama-2-7B
使用方式	可用於繁體中文或英語與臺灣閩南語（漢字、白話字、漢羅）之間的翻譯，也支持臺灣閩南語不同書寫系統（漢字、白話字、漢羅）之間的翻譯
語言	臺灣閩南語（漢字、白話字和漢羅）、繁體中文和英語
輸入	源語言文本
輸出	目標語言文本
模型規模	70 億參數

提示模板

{BOS}[TRANS]\n{source_sentence}\n[/TRANS]\n[{target_language}]\n

source_sentence：您要翻譯的句子。
target_language：您要翻譯到的目標語言。使用 "ZH" 表示繁體中文，"EN" 表示英語，"POJ" 表示臺灣閩南語白話字，"HL" 表示臺灣閩南語漢羅，"HAN" 表示臺灣閩南語漢字。
請確保末尾有換行符。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer, TextGenerationPipeline
import torch
import accelerate

def get_pipeline(path:str, tokenizer:AutoTokenizer, accelerator:accelerate.Accelerator) -> TextGenerationPipeline:
    model = AutoModelForCausalLM.from_pretrained(
        path, torch_dtype=torch.float16, device_map='auto', trust_remote_code=True)
    
    terminators = [tokenizer.eos_token_id, tokenizer.pad_token_id]

    pipeline = TextGenerationPipeline(model = model, tokenizer = tokenizer, num_workers=accelerator.state.num_processes*4, pad_token_id=tokenizer.pad_token_id, eos_token_id=terminators)

    return pipeline

model_dir = "Bohanlu/Taigi-Llama-2-Translator-7B" # or "Bohanlu/Taigi-Llama-2-Translator-13B" for the 13B model
tokenizer = AutoTokenizer.from_pretrained(model_dir, use_fast=False)

accelerator = accelerate.Accelerator()
pipe = get_pipeline(model_dir, tokenizer, accelerator)

PROMPT_TEMPLATE = "[TRANS]\n{source_sentence}\n[/TRANS]\n[{target_language}]\n"

def translate(source_sentence:str, target_language:str) -> str:
    prompt = PROMPT_TEMPLATE.format(source_sentence=source_sentence, target_language=target_language)
    out = pipe(prompt, return_full_text=False, repetition_penalty=1.1, do_sample=False)[0]['generated_text']
    return out[:out.find("[/")].strip()

source_sentence = "How are you today？"

print("To Hanzi: " + translate(source_sentence, "HAN"))
# Output: To Hanzi: 你今仔日好無？

print("To POJ: " + translate(source_sentence, "POJ"))
# Output: To POJ: Lí kin-á-ji̍t án-chóaⁿ?

print("To Traditional Chinese: " + translate(source_sentence, "ZH"))
# Output: To Traditional Chinese: 你今天好嗎？

print("To Hanlo: " + translate(source_sentence, "HL"))
# Output: To Hanlo: 你今仔日好無？

📄 許可證

本項目遵循 CC - BY - NC - SA 4.0 許可證。

引用

如果您在工作中發現臺灣閩南語大語言模型集合中的資源有用，請使用以下引用：

@misc{lu2024enhancing,
      title={Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems}, 
      author={Bo-Han Lu and Yi-Hsuan Lin and En-Shiun Annie Lee and Richard Tzong-Han Tsai},
      year={2024},
      eprint={2403.12024},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}