WiNGPT-Babel-2-GGUF開源多語言翻譯模型 - 支持55種語言，中文翻譯超出色！

首頁

Wingpt Babel 2 GGUF

由winninghealth開發

WiNGPT-Babel-2 是一款專為多語言翻譯任務優化的語言模型，支持55種語言的翻譯，特別優化了中文翻譯和結構化數據處理能力。

機器翻譯

Transformers

支持多種語言開源協議:Apache-2.0 #多語言翻譯 #結構化數據翻譯 #混合內容處理

下載量 133

發布時間 : 6/11/2025

模型概述

WiNGPT-Babel-2 是 WiNGPT-Babel 的迭代版本，在語言覆蓋範圍、數據格式處理以及複雜內容翻譯準確性方面有顯著提升。它通過 'Human-in-the-loop' 訓練策略進行優化，確保在實際使用中的有效性和可靠性。

模型特點

擴展語言支持

通過使用 wmt24pp 數據集進行訓練，語言支持擴展到了55種語言，主要增強了從英語到其他目標語言的翻譯能力。

增強中文翻譯

專門優化了從其他源語言到中文的翻譯流程，提高了翻譯結果的準確性和流暢性。

結構化數據翻譯

能夠識別並翻譯嵌入在結構化數據（如 JSON）中的文本字段，同時保留原始數據結構。適用於 API 國際化和多語言數據集預處理等場景。

混合內容處理

提升了處理混合內容文本的能力，能夠更準確地翻譯包含數學表達式（LaTeX）、代碼片段和網頁標記（HTML/Markdown）的段落，同時保留這些不可翻譯元素的格式和完整性。

模型能力

多語言文本翻譯

結構化數據翻譯

混合內容處理

多輪對話支持

使用案例

API 國際化

JSON 數據翻譯

將 API 返回的 JSON 數據中的文本字段翻譯為目標語言，同時保留數據結構。

提高 API 的國際化和多語言支持能力。

多語言數據集預處理

數據集翻譯

將數據集中的文本內容翻譯為多種語言，用於訓練多語言模型。

擴展數據集的語言覆蓋範圍，提升模型的多語言能力。

文檔翻譯

混合內容翻譯

翻譯包含數學表達式、代碼片段和網頁標記的文檔，保留不可翻譯元素的格式。

確保翻譯後的文檔格式完整，便於閱讀和使用。

🚀 WiNGPT-Babel-2：多語言翻譯語言模型

WiNGPT-Babel-2 是一款專為多語言翻譯任務優化的語言模型。作為 WiNGPT-Babel 的迭代版本，它在語言覆蓋範圍、數據格式處理以及複雜內容翻譯準確性方面都有顯著提升。該模型延續了 “Human-in-the-loop” 訓練策略，通過分析實際應用場景的日誌數據進行迭代優化，確保在實際使用中的有效性和可靠性。

這是 WiNGPT-Babel-2 的量化版本（llama.cpp）。

示例
./llama-server -m WiNGPT-Babel-2-GGUF/WiNGPT-Babel-2-IQ4_XS.gguf --jinja --chat-template-file WiNGPT-Babel-2-GGUF/WiNGPT-Babel-2.jinja
--jinja：此標誌激活 Jinja2 聊天模板處理器。

--chat-template-file：此標誌指示服務器指向定義 WiNGPT-Babel-2 自定義提示格式的所需模板文件。

✨ 主要特性

2.0 版本核心改進

WiNGPT-Babel-2 相較於前代版本引入了以下關鍵技術升級：

擴展語言支持：通過使用 wmt24pp 數據集進行訓練，語言支持擴展到了 55 種語言，主要增強了從英語（en）到其他目標語言（xx）的翻譯能力。
增強中文翻譯：專門優化了從其他源語言到中文（xx → zh）的翻譯流程，提高了翻譯結果的準確性和流暢性。
結構化數據翻譯：模型現在能夠識別並翻譯嵌入在 結構化數據（如 JSON） 中的文本字段，同時保留原始數據結構。此功能適用於 API 國際化和多語言數據集預處理等場景。
混合內容處理：處理混合內容文本的能力得到提升，能夠更準確地翻譯包含 數學表達式（LaTeX）、代碼片段和網頁標記（HTML/Markdown） 的段落，同時保留這些不可翻譯元素的格式和完整性。

訓練方法

WiNGPT-Babel-2 的性能提升歸功於持續的數據驅動迭代訓練過程：

數據收集：從集成應用（如 Immersive Translate、Videolingo）中收集匿名的實際翻譯任務日誌。
數據精煉：使用獎勵模型對收集的數據進行拒絕採樣，並輔以人工審核，篩選出高質量、高價值的樣本，用於構建新的訓練數據集。
迭代再訓練：使用精煉後的數據對模型進行增量訓練，通過循環迭代過程不斷提高其在特定領域和場景中的性能。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

為獲得最佳推理性能，建議使用 vllm 等框架。以下是使用 Hugging Face transformers 庫的基本使用示例：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "winninghealth/WiNGPT-Babel-2-AWQ"

model = AutoModelForCausalLM.from_pretrained(
   model_name,
   torch_dtype="auto",
   device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Example: Translation of text within a JSON object to Chinese
prompt_json = """{
  "product_name": "High-Performance Laptop",
  "features": ["Fast Processor", "Long Battery Life", "Lightweight Design"]
}"""

messages = [
   {"role": "system", "content": "Translate this to Simplified Chinese Language"}, 
   {"role": "user", "content": prompt_json} # Replace with the desired prompt
]

text = tokenizer.apply_chat_template(
   messages,
   tokenize=False,
   add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
   **model_inputs,
   max_new_tokens=4096,
   temperature=0
)

generated_ids = [
   output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

如需更多使用演示，可參考原始 WiNGPT-Babel。

📚 詳細文檔

技術規格

屬性	詳情
基礎模型	GemmaX2-28-2B-Pretrain
主要訓練數據	“Human-in-the-loop” 內部數據集，WMT24++ 數據集
最大上下文長度	4096 個標記
聊天能力	支持多輪對話，允許上下文跟進和翻譯優化

語言支持

方向	描述	支持的語言（部分列表）
核心支持	質量最高，經過廣泛優化。	`en ↔ zh`
擴展支持	通過 `wmt24pp` 數據集訓練支持。	`en → 55+ 種語言`，包括：`fr`、`de`、`es`、`ru`、`ar`、`pt`、`ko`、`it`、`nl`、`tr`、`pl`、`sv`...
增強中文翻譯	專門針對翻譯成中文進行優化。	`xx → zh`

性能

模型	FLORES-200 xx → en	FLORES-200 xx → zh
WiNGPT-Babel-AWQ	33.91	17.29
WiNGPT-Babel-2-AWQ	36.43	30.74

注意：

評估指標為 spBLEU，使用 FLORES-200 分詞器。
'xx' 代表 wmt24pp 數據集中的 52 種源語言。

🔧 技術細節

文檔未提及技術實現細節，故跳過此章節。

📄 許可證

本項目的許可協議為 Apache License 2.0。
使用其模型權重時，請引用本項目：https://huggingface.co/winninghealth/WiNGPT-Babel-2。
遵守 gemma-2-2b、GemmaX2-28-2B-v0.1、immersive-translate、VideoLingo 的協議和許可證，詳情請訪問其網站。