🚀 WiNGPT-Babel-2:多言語翻訳用言語モデル
WiNGPT-Babel-2 は、多言語翻訳タスクに特化して最適化された言語モデルです。WiNGPT-Babel の次世代バージョンとして、言語のカバレッジ、データ形式の処理、複雑な内容の翻訳精度などで大幅な向上を実現しています。このモデルは “Human-in-the-loop” トレーニング戦略を引き続き採用し、実際のアプリケーションのログデータを分析して反復的に最適化することで、実使用時の有効性と信頼性を確保しています。

これは WiNGPT-Babel-2 の量子化バージョン(llama.cpp)です。
例
./llama-server -m WiNGPT-Babel-2-GGUF/WiNGPT-Babel-2-IQ4_XS.gguf --jinja --chat-template-file WiNGPT-Babel-2-GGUF/WiNGPT-Babel-2.jinja
- --jinja:このフラグは Jinja2 チャットテンプレートプロセッサを有効にします。
- --chat-template-file:このフラグは、サーバーに WiNGPT-Babel-2 のカスタムプロンプト形式を定義する必要なテンプレートファイルを指定させます。
✨ 主な機能
2.0 バージョンの核心的な改善点
WiNGPT-Babel-2 は、前世代バージョンに比べて以下の重要な技術アップグレードを導入しています。
- 言語サポートの拡張:
wmt24pp
データセットを使用したトレーニングにより、言語サポートが 55 言語 に拡張され、主に英語(en)から他の目標言語(xx)への翻訳能力が強化されました。
- 中国語翻訳の強化:他のソース言語から中国語(xx → zh)への翻訳プロセスが特別に最適化され、翻訳結果の精度と流暢性が向上しています。
- 構造化データの翻訳:モデルは現在、構造化データ(JSON など) に埋め込まれたテキストフィールドを識別して翻訳することができ、元のデータ構造を保持します。この機能は、API の国際化や多言語データセットの前処理などのシナリオに適用されます。
- 混合コンテンツの処理:混合コンテンツのテキストを処理する能力が向上し、数式(LaTeX)、コードスニペット、ウェブマークアップ(HTML/Markdown) を含む段落をより正確に翻訳することができ、これらの非翻訳可能な要素の形式と完全性を保持します。
トレーニング方法
WiNGPT-Babel-2 の性能向上は、持続的なデータ駆動型の反復トレーニングプロセスによるものです。
- データ収集:統合アプリケーション(Immersive Translate、Videolingo など)から匿名の実際の翻訳タスクのログを収集します。
- データ精錬:収集したデータに対して報酬モデルを使用して拒否サンプリングを行い、人工審査を補助して、高品質で高価値なサンプルを選別し、新しいトレーニングデータセットを構築します。
- 反復再トレーニング:精錬されたデータを使用してモデルを増分トレーニングし、循環反復プロセスによって特定の分野やシナリオでの性能を継続的に向上させます。
💻 使用例
基本的な使用法
最適な推論性能を得るためには、vllm
などのフレームワークを使用することをお勧めします。以下は、Hugging Face transformers
ライブラリを使用した基本的な使用例です。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "winninghealth/WiNGPT-Babel-2-AWQ"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt_json = """{
"product_name": "High-Performance Laptop",
"features": ["Fast Processor", "Long Battery Life", "Lightweight Design"]
}"""
messages = [
{"role": "system", "content": "Translate this to Simplified Chinese Language"},
{"role": "user", "content": prompt_json}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096,
temperature=0
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
より多くの使用デモについては、元の WiNGPT-Babel を参照してください。
📚 ドキュメント
技術仕様
属性 |
詳細 |
ベースモデル |
GemmaX2-28-2B-Pretrain |
主なトレーニングデータ |
“Human-in-the-loop” 内部データセット、WMT24++ データセット |
最大コンテキスト長 |
4096 トークン |
チャット機能 |
複数回の対話をサポートし、コンテキストの追跡と翻訳の最適化を可能にします。 |
言語サポート
方向 |
説明 |
サポートされる言語(一部リスト) |
核心的なサポート |
最も高い品質で、広範に最適化されています。 |
en ↔ zh |
拡張サポート |
wmt24pp データセットを使用したトレーニングによりサポートされています。 |
en → 55+ 言語 、以下を含む:fr 、de 、es 、ru 、ar 、pt 、ko 、it 、nl 、tr 、pl 、sv ... |
強化された中国語翻訳 |
中国語への翻訳に特化して最適化されています。 |
xx → zh |
性能
モデル |
FLORES-200 xx → en |
FLORES-200 xx → zh |
WiNGPT-Babel-AWQ |
33.91 |
17.29 |
WiNGPT-Babel-2-AWQ |
36.43 |
30.74 |
注意:
- 評価指標は spBLEU で、FLORES-200 トークナイザーを使用しています。
- 'xx' は wmt24pp データセット内の 52 種類のソース言語を表します。
📄 ライセンス
- このプロジェクトのライセンスは Apache License 2.0 です。
- モデルの重みを使用する場合は、このプロジェクトを引用してください:https://huggingface.co/winninghealth/WiNGPT-Babel-2。
- gemma-2-2b、GemmaX2-28-2B-v0.1、immersive-translate、VideoLingo の規約とライセンスに従ってください。詳細はそれらのウェブサイトをご覧ください。
お問い合わせ
- WiNGPT プラットフォームを通じてトークンを申請してください。
- または、無料で API_KEY を試用するために、wair@winning.com.cn までご連絡ください。