Taigi-Llama-2-Translator-7Bオープンソース翻訳モデル - 無料で台語、繁体字中国語、英語の相互翻訳を実現

ホーム

Taigi Llama 2 Translator 7B

Bohanluによって開発

台語-Llama-2シリーズモデルに基づいて構築され、台湾閩南語と繁体字中国語、英語の間の翻訳タスクに特化しています。

機械翻訳

Transformers

#閩南語の多様な書き方の翻訳 #英語、中国語、台語の相互翻訳 #漢字と白話字の変換

ダウンロード数 1,915

リリース時間 : 5/13/2024

モデル概要

このモデルは263kの平行データで微調整され、台湾閩南語（漢字、白話字、漢羅）、繁体字中国語、英語の相互翻訳をサポートします。

モデル特徴

多言語翻訳

繁体字中国語または英語と台湾閩南語（漢字、白話字、漢羅）の間の翻訳をサポートし、台湾閩南語の異なる書き方の間の変換もサポートします。

多様な書き方のサポート

台湾閩南語の3つの書き方：漢字(HAN)、白話字(POJ)、漢羅(HL)をサポートします。

大規模な訓練データ

263kの平行データに基づいて微調整され、翻訳品質を保証します。

モデル能力

テキスト翻訳

多言語変換

書き方の変換

使用事例

言語翻訳

英語から台湾閩南語への翻訳

英語のテキストを台湾閩南語の異なる書き方に翻訳する

How are you today? → 你今仔日好無？(漢字)

繁体字中国語から台湾閩南語への翻訳

繁体字中国語のテキストを台湾閩南語の異なる書き方に翻訳する

書き方の変換

漢字から白話字への変換

台湾閩南語の漢字形式を白話字形式に変換する

🚀 台語-Llama-2翻訳器-7Bモデルカード

台語-Llama-2翻訳器シリーズは、台語-Llama-2シリーズモデルをベースに構築されています。263kの並列データを用いてファインチューニングを行い、台湾語（閩南語）と関連言語の翻訳モデルを作成しました。

詳細については、当社のGitHubリポジトリと論文Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systemsを参照してください。

台湾語（閩南語）LLMコレクションで他のモデルとデータセットを探索できます。

🚀 クイックスタート

このモデルは、繁体字中国語または英語と台湾語（閩南語）（漢字、POJ、または漢羅）の間の翻訳に使用できます。また、台湾語（閩南語）の異なる表記体系（漢字、POJ、漢羅）間の翻訳もサポートしています。

✨ 主な機能

繁体字中国語または英語と台湾語（閩南語）の相互翻訳
台湾語（閩南語）の異なる表記体系（漢字、POJ、漢羅）間の翻訳

📚 ドキュメント

モデルの説明

ベースモデル: Bohanlu/Taigi-Llama-2-7B
用途: このモデルは、繁体字中国語または英語と台湾語（閩南語）（漢字、POJ、または漢羅）の間の翻訳に使用できます。また、台湾語（閩南語）の異なる表記体系（漢字、POJ、漢羅）間の翻訳もサポートしています。
言語 (NLP): 台湾語（閩南語）（漢字、POJ、および漢羅）、繁体字中国語、英語
入力: ソース言語のテキスト
出力: ターゲット言語のテキスト
モデルサイズ: 70億パラメータ

プロンプトテンプレート

{BOS}[TRANS]\n{source_sentence}\n[/TRANS]\n[{target_language}]\n

source_sentence: 翻訳したい文。
target_language: 翻訳先のターゲット言語。繁体字中国語は"ZH"、英語は"EN"、台湾語（閩南語）POJは"POJ"、台湾語（閩南語）漢羅は"HL"、台湾語（閩南語）漢字は"HAN"を使用します。
末尾に改行が必要です。

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, TextGenerationPipeline
import torch
import accelerate

def get_pipeline(path:str, tokenizer:AutoTokenizer, accelerator:accelerate.Accelerator) -> TextGenerationPipeline:
    model = AutoModelForCausalLM.from_pretrained(
        path, torch_dtype=torch.float16, device_map='auto', trust_remote_code=True)
    
    terminators = [tokenizer.eos_token_id, tokenizer.pad_token_id]

    pipeline = TextGenerationPipeline(model = model, tokenizer = tokenizer, num_workers=accelerator.state.num_processes*4, pad_token_id=tokenizer.pad_token_id, eos_token_id=terminators)

    return pipeline

model_dir = "Bohanlu/Taigi-Llama-2-Translator-7B" # or "Bohanlu/Taigi-Llama-2-Translator-13B" for the 13B model
tokenizer = AutoTokenizer.from_pretrained(model_dir, use_fast=False)

accelerator = accelerate.Accelerator()
pipe = get_pipeline(model_dir, tokenizer, accelerator)

PROMPT_TEMPLATE = "[TRANS]\n{source_sentence}\n[/TRANS]\n[{target_language}]\n"

def translate(source_sentence:str, target_language:str) -> str:
    prompt = PROMPT_TEMPLATE.format(source_sentence=source_sentence, target_language=target_language)
    out = pipe(prompt, return_full_text=False, repetition_penalty=1.1, do_sample=False)[0]['generated_text']
    return out[:out.find("[/")].strip()

source_sentence = "How are you today？"

print("To Hanzi: " + translate(source_sentence, "HAN"))
# Output: To Hanzi: 你今仔日好無？

print("To POJ: " + translate(source_sentence, "POJ"))
# Output: To POJ: Lí kin-á-ji̍t án-chóaⁿ?

print("To Traditional Chinese: " + translate(source_sentence, "ZH"))
# Output: To Traditional Chinese: 你今天好嗎？

print("To Hanlo: " + translate(source_sentence, "HL"))
# Output: To Hanlo: 你今仔日好無？

📄 ライセンス

このモデルは、CC BY-NC-SA 4.0ライセンスの下で提供されています。

引用

台湾語（閩南語）LLMコレクションのリソースがあなたの研究に役立った場合、以下の引用を使用して引用してください。

@misc{lu2024enhancing,
      title={Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems}, 
      author={Bo-Han Lu and Yi-Hsuan Lin and En-Shiun Annie Lee and Richard Tzong-Han Tsai},
      year={2024},
      eprint={2403.12024},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}