🚀 ゲーム翻訳用微調整済みM2M100モデル
このモデルは、中国語のゲーム翻訳に特化した微調整済みの翻訳モデルです。Discordのモディングコミュニティである Amateur Modding Avenue の活動から生まれたプロジェクトです。
🚀 クイックスタート
モデルのバージョンはV2に更新され、より良い翻訳結果を提供するようになりました。旧バージョンのモデルは 'V1' ブランチで引き続き利用可能です。
✨ 主な機能
- タグを混乱させることがない
- 基本的な修煉/武術の語彙を持っている
- 有料サービスなしで利用できる
📦 インストール
このモデルは transformers
ライブラリを使用して読み込むことができます。以下のコードを実行することで、必要なモデルとトークナイザーをインストールできます。
from transformers import AutoModelForSeq2SeqLM, M2M100Tokenizer
import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
tokenizer = transformers.M2M100Tokenizer.from_pretrained("CadenzaBaron/M2M100-418M-for-GameTranslation-Finetuned-Zh-En")
model = AutoModelForSeq2SeqLM.from_pretrained("CadenzaBaron/M2M100-418M-for-GameTranslation-Finetuned-Zh-En")
model.to(device)
tokenizer.src_lang = "zh"
tokenizer.tgt_lang = "en"
💻 使用例
基本的な使用法
以下のコードは、モデルを使用して中国語のテキストを英語に翻訳する基本的な例です。
test_string = "地阶上品遁术,施展后便可立于所持之剑上,以极快的速度自由飞行。"
inputs = tokenizer(test_string, return_tensors="pt").to(device)
translated_tokens = model.generate(**inputs, num_beams=10, do_sample=True)
translation = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
print("CH : ", test_string , " // EN : ", translation)
📚 ドキュメント
翻訳のサンプルとGoogle翻訳、DeepLとの比較は、こちらのスプレッドシート で確認できます。
🔧 技術詳細
このモデルは、FacebookのM2M100をベースに、46,000行の中国語のゲーム翻訳データセットで微調整されています。すべてのデータは人間またはファンによる翻訳です。
📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で提供されています。
注意事項
データセットはモディンググループ(AMAとPoW翻訳チーム)の作業から構築されており、彼らが自分たちの作業をさらなるAIトレーニングに再利用することを望まない可能性があるため、データセットは公開または共有されません。
データセット情報
属性 |
详情 |
モデルタイプ |
微調整済みM2M100 |
学習データ |
46,000行の中国語のゲーム翻訳データセット |
評価指標 |
BLEU |
パイプラインタグ |
翻訳 |
推論パラメータ
使用例
from transformers import AutoModelForSeq2SeqLM, M2M100Tokenizer
import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
tokenizer = transformers.M2M100Tokenizer.from_pretrained("CadenzaBaron/M2M100-418M-for-GameTranslation-Finetuned-Zh-En")
model = AutoModelForSeq2SeqLM.from_pretrained("CadenzaBaron/M2M100-418M-for-GameTranslation-Finetuned-Zh-En")
model.to(device)
tokenizer.src_lang = "zh"
tokenizer.tgt_lang = "en"
test_string = "地阶上品遁术,施展后便可立于所持之剑上,以极快的速度自由飞行。"
inputs = tokenizer(test_string, return_tensors="pt").to(device)
translated_tokens = model.generate(**inputs, num_beams=10, do_sample=True)
translation = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
print("CH : ", test_string , " // EN : ", translation)
翻訳サンプル
翻訳のサンプルとGoogle翻訳、DeepLとの比較は、こちらのスプレッドシート で確認できます。
重要提示
⚠️ 重要提示
このモデルは完璧ではありません。Google翻訳とDeepLの中間くらいの性能を持っていると思われます。使用する前に期待値を下げてください。
💡 使用建议
ゲーム翻訳の最初の機械翻訳パスとして使用することをおすすめします。