M2M100 - 418M中英ゲーム翻訳モデル - オープンソースで修真/武術系ゲームコンテンツに適合

ホーム

M2M100 418M For GameTranslation Finetuned Zh En

CadenzaBaronによって開発

Facebook/M2M100をファインチューニングした中英ゲーム翻訳モデル、修真/武術系ゲームコンテンツに最適化

機械翻訳

Transformers

複数言語対応#修真ゲーム翻訳 #タグ保持翻訳 #中英並列コーパス

ダウンロード数 16

リリース時間 : 7/26/2023

モデル概要

このモデルはゲームコンテンツ向けにファインチューニングされており、特に修真/武術用語やゲームUIテキストの翻訳タスクに優れています

モデル特徴

ゲームコンテンツ最適化

特に修真/武術用語などゲームテキスト翻訳向けにファインチューニング

タグ構造保持

翻訳時に元のテキストのタグ構造を破壊しません

コミュニティ駆動

MODコミュニティから提供された46,000行の手動翻訳ゲームテキストで訓練

無料公開

完全無料で公開、商用ライセンス不要

モデル能力

中国語から英語へのゲームテキスト翻訳

修真/武術用語翻訳

ゲームUIテキスト翻訳

使用事例

ゲームローカライゼーション

ゲームMOD翻訳

中国語ゲームMODコンテンツを英語に翻訳

Google翻訳とDeepLの中間レベルの翻訳品質を提供

ゲームUI翻訳

ゲームUI、スキル説明などのテキストコンテンツを翻訳

タグ構造を保持し、ゲームプロジェクトに直接統合可能

🚀 ゲーム翻訳用微調整済みM2M100モデル

このモデルは、中国語のゲーム翻訳に特化した微調整済みの翻訳モデルです。Discordのモディングコミュニティである Amateur Modding Avenue の活動から生まれたプロジェクトです。

🚀 クイックスタート

モデルのバージョンはV2に更新され、より良い翻訳結果を提供するようになりました。旧バージョンのモデルは 'V1' ブランチで引き続き利用可能です。

✨ 主な機能

タグを混乱させることがない
基本的な修煉/武術の語彙を持っている
有料サービスなしで利用できる

📦 インストール

このモデルは transformers ライブラリを使用して読み込むことができます。以下のコードを実行することで、必要なモデルとトークナイザーをインストールできます。

from transformers import AutoModelForSeq2SeqLM, M2M100Tokenizer
import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
tokenizer = transformers.M2M100Tokenizer.from_pretrained("CadenzaBaron/M2M100-418M-for-GameTranslation-Finetuned-Zh-En")
model = AutoModelForSeq2SeqLM.from_pretrained("CadenzaBaron/M2M100-418M-for-GameTranslation-Finetuned-Zh-En")
model.to(device)
tokenizer.src_lang = "zh"
tokenizer.tgt_lang = "en"

💻 使用例

基本的な使用法

以下のコードは、モデルを使用して中国語のテキストを英語に翻訳する基本的な例です。

test_string = "地阶上品遁术，施展后便可立于所持之剑上，以极快的速度自由飞行。"

inputs = tokenizer(test_string, return_tensors="pt").to(device)
translated_tokens = model.generate(**inputs, num_beams=10, do_sample=True)
translation = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]

print("CH : ", test_string , " // EN : ", translation)

📚 ドキュメント

翻訳のサンプルとGoogle翻訳、DeepLとの比較は、こちらのスプレッドシートで確認できます。

🔧 技術詳細

このモデルは、FacebookのM2M100をベースに、46,000行の中国語のゲーム翻訳データセットで微調整されています。すべてのデータは人間またはファンによる翻訳です。

📄 ライセンス

このモデルはCC BY-NC 4.0ライセンスの下で提供されています。

注意事項

データセットはモディンググループ（AMAとPoW翻訳チーム）の作業から構築されており、彼らが自分たちの作業をさらなるAIトレーニングに再利用することを望まない可能性があるため、データセットは公開または共有されません。

データセット情報

属性	详情
モデルタイプ	微調整済みM2M100
学習データ	46,000行の中国語のゲーム翻訳データセット
評価指標	BLEU
パイプラインタグ	翻訳

推論パラメータ

入力言語: 中国語
出力言語: 英語

使用例

from transformers import AutoModelForSeq2SeqLM, M2M100Tokenizer
import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
tokenizer = transformers.M2M100Tokenizer.from_pretrained("CadenzaBaron/M2M100-418M-for-GameTranslation-Finetuned-Zh-En")
model = AutoModelForSeq2SeqLM.from_pretrained("CadenzaBaron/M2M100-418M-for-GameTranslation-Finetuned-Zh-En")
model.to(device)
tokenizer.src_lang = "zh"
tokenizer.tgt_lang = "en"
test_string = "地阶上品遁术，施展后便可立于所持之剑上，以极快的速度自由飞行。"

inputs = tokenizer(test_string, return_tensors="pt").to(device)
translated_tokens = model.generate(**inputs, num_beams=10, do_sample=True)
translation = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]

print("CH : ", test_string , " // EN : ", translation)