🚀 WiNGPT-Babel-2:多語言翻譯語言模型
WiNGPT-Babel-2 是一款專為多語言翻譯任務優化的語言模型。作為 WiNGPT-Babel 的迭代版本,它在語言覆蓋範圍、數據格式處理以及複雜內容翻譯準確性方面都有顯著提升。該模型延續了 “Human-in-the-loop” 訓練策略,通過分析實際應用場景的日誌數據進行迭代優化,確保在實際使用中的有效性和可靠性。

這是 WiNGPT-Babel-2 的量化版本(llama.cpp)。
示例
./llama-server -m WiNGPT-Babel-2-GGUF/WiNGPT-Babel-2-IQ4_XS.gguf --jinja --chat-template-file WiNGPT-Babel-2-GGUF/WiNGPT-Babel-2.jinja
- --jinja:此標誌激活 Jinja2 聊天模板處理器。
- --chat-template-file:此標誌指示服務器指向定義 WiNGPT-Babel-2 自定義提示格式的所需模板文件。
✨ 主要特性
2.0 版本核心改進
WiNGPT-Babel-2 相較於前代版本引入了以下關鍵技術升級:
- 擴展語言支持:通過使用
wmt24pp
數據集進行訓練,語言支持擴展到了 55 種語言,主要增強了從英語(en)到其他目標語言(xx)的翻譯能力。
- 增強中文翻譯:專門優化了從其他源語言到中文(xx → zh)的翻譯流程,提高了翻譯結果的準確性和流暢性。
- 結構化數據翻譯:模型現在能夠識別並翻譯嵌入在 結構化數據(如 JSON) 中的文本字段,同時保留原始數據結構。此功能適用於 API 國際化和多語言數據集預處理等場景。
- 混合內容處理:處理混合內容文本的能力得到提升,能夠更準確地翻譯包含 數學表達式(LaTeX)、代碼片段和網頁標記(HTML/Markdown) 的段落,同時保留這些不可翻譯元素的格式和完整性。
訓練方法
WiNGPT-Babel-2 的性能提升歸功於持續的數據驅動迭代訓練過程:
- 數據收集:從集成應用(如 Immersive Translate、Videolingo)中收集匿名的實際翻譯任務日誌。
- 數據精煉:使用獎勵模型對收集的數據進行拒絕採樣,並輔以人工審核,篩選出高質量、高價值的樣本,用於構建新的訓練數據集。
- 迭代再訓練:使用精煉後的數據對模型進行增量訓練,通過循環迭代過程不斷提高其在特定領域和場景中的性能。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
為獲得最佳推理性能,建議使用 vllm
等框架。以下是使用 Hugging Face transformers
庫的基本使用示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "winninghealth/WiNGPT-Babel-2-AWQ"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt_json = """{
"product_name": "High-Performance Laptop",
"features": ["Fast Processor", "Long Battery Life", "Lightweight Design"]
}"""
messages = [
{"role": "system", "content": "Translate this to Simplified Chinese Language"},
{"role": "user", "content": prompt_json}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096,
temperature=0
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
如需更多使用演示,可參考原始 WiNGPT-Babel。
📚 詳細文檔
技術規格
語言支持
方向 |
描述 |
支持的語言(部分列表) |
核心支持 |
質量最高,經過廣泛優化。 |
en ↔ zh |
擴展支持 |
通過 wmt24pp 數據集訓練支持。 |
en → 55+ 種語言 ,包括:fr 、de 、es 、ru 、ar 、pt 、ko 、it 、nl 、tr 、pl 、sv ... |
增強中文翻譯 |
專門針對翻譯成中文進行優化。 |
xx → zh |
性能
模型 |
FLORES-200 xx → en |
FLORES-200 xx → zh |
WiNGPT-Babel-AWQ |
33.91 |
17.29 |
WiNGPT-Babel-2-AWQ |
36.43 |
30.74 |
注意:
- 評估指標為 spBLEU,使用 FLORES-200 分詞器。
- 'xx' 代表 wmt24pp 數據集中的 52 種源語言。
🔧 技術細節
文檔未提及技術實現細節,故跳過此章節。
📄 許可證
- 本項目的許可協議為 Apache License 2.0。
- 使用其模型權重時,請引用本項目:https://huggingface.co/winninghealth/WiNGPT-Babel-2。
- 遵守 gemma-2-2b、GemmaX2-28-2B-v0.1、immersive-translate、VideoLingo 的協議和許可證,詳情請訪問其網站。
聯繫我們
- 通過 WiNGPT 平臺申請令牌。
- 或聯繫我們:wair@winning.com.cn,申請免費試用 API_KEY。