WiNGPT-Babel-2-GGUFオープンソースの多言語翻訳モデル - 55種類の言語をサポート、中国語翻訳が特に優れています！

ホーム

Wingpt Babel 2 GGUF

winninghealthによって開発

WiNGPT-Babel-2は、多言語翻訳タスクに特化して最適化された言語モデルで、55言語の翻訳をサポートし、特に中国語翻訳と構造化データ処理能力が最適化されています。

機械翻訳

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語翻訳 #構造化データ翻訳 #混合コンテンツ処理

ダウンロード数 133

リリース時間 : 6/11/2025

モデル概要

WiNGPT-Babel-2はWiNGPT-Babelの次世代バージョンで、言語カバレッジ、データ形式処理、複雑なコンテンツの翻訳精度において著しい向上が見られます。「Human-in-the-loop」トレーニング戦略により最適化され、実際の使用における有効性と信頼性が確保されています。

モデル特徴

言語サポートの拡張

wmt24ppデータセットを使用したトレーニングにより、言語サポートが55言語に拡張され、主に英語から他の目的言語への翻訳能力が強化されました。

中国語翻訳の強化

他の源言語から中国語への翻訳プロセスが特別に最適化され、翻訳結果の精度と流暢性が向上しました。

構造化データ翻訳

構造化データ（JSONなど）に埋め込まれたテキストフィールドを識別して翻訳し、元のデータ構造を保持することができます。APIの国際化や多言語データセットの前処理などのシナリオに適しています。

混合コンテンツ処理

混合コンテンツテキストの処理能力が向上し、数学式（LaTeX）、コードスニペット、ウェブマークアップ（HTML/Markdown）を含む段落をより正確に翻訳し、これらの非翻訳要素の形式と完全性を保持することができます。

モデル能力

多言語テキスト翻訳

構造化データ翻訳

混合コンテンツ処理

多輪対話サポート

使用事例

APIの国際化

JSONデータ翻訳

APIが返すJSONデータのテキストフィールドを目的言語に翻訳し、データ構造を保持します。

APIの国際化と多言語サポート能力を向上させます。

多言語データセットの前処理

データセット翻訳

データセットのテキストコンテンツを複数の言語に翻訳し、多言語モデルのトレーニングに使用します。

データセットの言語カバレッジを拡張し、モデルの多言語能力を向上させます。

ドキュメント翻訳

混合コンテンツ翻訳

数学式、コードスニペット、ウェブマークアップを含むドキュメントを翻訳し、非翻訳要素の形式を保持します。

翻訳後のドキュメントの形式を完全に保持し、閲読と使用を容易にします。

🚀 WiNGPT-Babel-2：多言語翻訳用言語モデル

WiNGPT-Babel-2 は、多言語翻訳タスクに特化して最適化された言語モデルです。WiNGPT-Babel の次世代バージョンとして、言語のカバレッジ、データ形式の処理、複雑な内容の翻訳精度などで大幅な向上を実現しています。このモデルは “Human-in-the-loop” トレーニング戦略を引き続き採用し、実際のアプリケーションのログデータを分析して反復的に最適化することで、実使用時の有効性と信頼性を確保しています。

これは WiNGPT-Babel-2 の量子化バージョン（llama.cpp）です。

例
./llama-server -m WiNGPT-Babel-2-GGUF/WiNGPT-Babel-2-IQ4_XS.gguf --jinja --chat-template-file WiNGPT-Babel-2-GGUF/WiNGPT-Babel-2.jinja
--jinja：このフラグは Jinja2 チャットテンプレートプロセッサを有効にします。

--chat-template-file：このフラグは、サーバーに WiNGPT-Babel-2 のカスタムプロンプト形式を定義する必要なテンプレートファイルを指定させます。

✨ 主な機能

2.0 バージョンの核心的な改善点

WiNGPT-Babel-2 は、前世代バージョンに比べて以下の重要な技術アップグレードを導入しています。

言語サポートの拡張：wmt24pp データセットを使用したトレーニングにより、言語サポートが 55 言語 に拡張され、主に英語（en）から他の目標言語（xx）への翻訳能力が強化されました。
中国語翻訳の強化：他のソース言語から中国語（xx → zh）への翻訳プロセスが特別に最適化され、翻訳結果の精度と流暢性が向上しています。
構造化データの翻訳：モデルは現在、構造化データ（JSON など） に埋め込まれたテキストフィールドを識別して翻訳することができ、元のデータ構造を保持します。この機能は、API の国際化や多言語データセットの前処理などのシナリオに適用されます。
混合コンテンツの処理：混合コンテンツのテキストを処理する能力が向上し、数式（LaTeX）、コードスニペット、ウェブマークアップ（HTML/Markdown） を含む段落をより正確に翻訳することができ、これらの非翻訳可能な要素の形式と完全性を保持します。

トレーニング方法

WiNGPT-Babel-2 の性能向上は、持続的なデータ駆動型の反復トレーニングプロセスによるものです。

データ収集：統合アプリケーション（Immersive Translate、Videolingo など）から匿名の実際の翻訳タスクのログを収集します。
データ精錬：収集したデータに対して報酬モデルを使用して拒否サンプリングを行い、人工審査を補助して、高品質で高価値なサンプルを選別し、新しいトレーニングデータセットを構築します。
反復再トレーニング：精錬されたデータを使用してモデルを増分トレーニングし、循環反復プロセスによって特定の分野やシナリオでの性能を継続的に向上させます。

💻 使用例

基本的な使用法

最適な推論性能を得るためには、vllm などのフレームワークを使用することをお勧めします。以下は、Hugging Face transformers ライブラリを使用した基本的な使用例です。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "winninghealth/WiNGPT-Babel-2-AWQ"

model = AutoModelForCausalLM.from_pretrained(
   model_name,
   torch_dtype="auto",
   device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Example: Translation of text within a JSON object to Chinese
prompt_json = """{
  "product_name": "High-Performance Laptop",
  "features": ["Fast Processor", "Long Battery Life", "Lightweight Design"]
}"""

messages = [
   {"role": "system", "content": "Translate this to Simplified Chinese Language"}, 
   {"role": "user", "content": prompt_json} # Replace with the desired prompt
]

text = tokenizer.apply_chat_template(
   messages,
   tokenize=False,
   add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
   **model_inputs,
   max_new_tokens=4096,
   temperature=0
)

generated_ids = [
   output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

より多くの使用デモについては、元の WiNGPT-Babel を参照してください。

📚 ドキュメント

技術仕様

属性	詳細
ベースモデル	GemmaX2-28-2B-Pretrain
主なトレーニングデータ	“Human-in-the-loop” 内部データセット、WMT24++ データセット
最大コンテキスト長	4096 トークン
チャット機能	複数回の対話をサポートし、コンテキストの追跡と翻訳の最適化を可能にします。

言語サポート

方向	説明	サポートされる言語（一部リスト）
核心的なサポート	最も高い品質で、広範に最適化されています。	`en ↔ zh`
拡張サポート	`wmt24pp` データセットを使用したトレーニングによりサポートされています。	`en → 55+ 言語`、以下を含む：`fr`、`de`、`es`、`ru`、`ar`、`pt`、`ko`、`it`、`nl`、`tr`、`pl`、`sv`...
強化された中国語翻訳	中国語への翻訳に特化して最適化されています。	`xx → zh`

性能

モデル	FLORES-200 xx → en	FLORES-200 xx → zh
WiNGPT-Babel-AWQ	33.91	17.29
WiNGPT-Babel-2-AWQ	36.43	30.74

注意：

評価指標は spBLEU で、FLORES-200 トークナイザーを使用しています。
'xx' は wmt24pp データセット内の 52 種類のソース言語を表します。

📄 ライセンス

このプロジェクトのライセンスは Apache License 2.0 です。
モデルの重みを使用する場合は、このプロジェクトを引用してください：https://huggingface.co/winninghealth/WiNGPT-Babel-2。
gemma-2-2b、GemmaX2-28-2B-v0.1、immersive-translate、VideoLingo の規約とライセンスに従ってください。詳細はそれらのウェブサイトをご覧ください。