WiNGPT-Babel開源翻譯模型 - 免費部署實現多語言母語級信息體驗

首頁

Wingpt Babel

由winninghealth開發

基於大語言模型（LLM）專為翻譯應用定製的模型，致力於提供便捷的多語言母語級信息體驗。

機器翻譯支持多種語言開源協議:Apache-2.0 #人在迴路翻譯 #多格式兼容 #即時字幕翻譯

下載量 248

發布時間 : 12/17/2024

模型概述

WiNGPT-巴別塔採用'人在迴路'的數據生產閉環策略進行訓練，支持多種文本格式的翻譯，旨在消除語言壁壘，幫助用戶更便捷地獲取全球互聯網信息。

模型特點

人在迴路訓練

通過API收集工具使用日誌構建訓練集，結合WiNGPT-2.6模型和獎勵模型進行拒絕採樣，並輔以人工審核確保質量。

多格式兼容

支持網頁、社媒、論文、視頻字幕及數據集等多種文本格式的翻譯。

精準輸出

基於先進LLM架構，提供準確自然、流暢地道的翻譯結果。

高效響應

採用1.5B參數模型，滿足即時字幕翻譯等場景對速度的嚴苛要求。

廣泛語言支持

當前支持20餘種語言，並持續擴展語種覆蓋。

工具適配

已兼容沉浸式翻譯、VideoLingo等實用工具。

模型能力

文本翻譯

多語言互譯

網頁內容翻譯

學術文獻翻譯

社交媒體內容翻譯

視頻字幕翻譯

數據集預處理

使用案例

網頁翻譯

外文網頁翻譯

通過沉浸式翻譯工具實現外文網頁母語化。

提供流暢的母語閱讀體驗。

學術研究

論文翻譯

輔助科研人員理解外文文獻。

提升跨國界學術文獻的閱讀效率。

社交媒體

社媒內容翻譯

跨語言社交內容轉換。

促進跨語言社交互動。

視頻內容

字幕翻譯

即時生成翻譯字幕文件。

無障礙觀看外語視頻。

視頻壓字

生成硬字幕視頻。

提供多語言視頻內容。

數據處理

數據集翻譯

多語言數據預處理。

便於多語言數據分析。

🚀 🌐 WiNGPT-Babel

WiNGPT-Babel（巴別塔）是一個專為翻譯應用定製的大語言模型（LLM），致力於為用戶提供便捷的多語言信息母語級體驗，降低語言障礙，助力用戶輕鬆獲取全球互聯網信息。

🚀 快速開始

WiNGPT-Babel 選用 Qwen2.5 - 1.5B 作為基礎模型，這是在測試比較各種參數規模模型後，對推理速度和翻譯質量進行平衡的選擇。其在各類應用場景下的翻譯速度能達到甚至超越谷歌翻譯，這對於使用翻譯模型而言至關重要。為幫助大家快速上手，下面提供了示例，使用 Hugging Face Transformers 庫進行加載和推理，當然也推薦使用 vllm、llama.cpp、ollama 等推理工具或框架。

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "WiNGPT/WiNGPT-Babel"

model = AutoModelForCausalLM.from_pretrained(
   model_name,
   torch_dtype="auto",
   device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Give me a short introduction to large language model."
messages = [
   {"role": "system", "content": "中英互譯下面的內容"},
   {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
   messages,
   tokenize=False,
   add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
   **model_inputs,
   max_new_tokens=4096
)
generated_ids = [
   output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

快速使用 llama.cpp 推理示例

llama-cli -m WiNGPT-Babel-Q4_K_M.gguf -co -i -if -p "<|im_start|>system\n中英互譯下面的內容<|im_end|>\n" --in-prefix "<|im_start|>user\n" --in-suffix "<|im_end|>\n<|im_start|>assistant\n" -fa -ngl 80 -n 512

⚠️ 重要提示

WiNGPT-Babel 默認系統提示詞僅為：“中英互譯下面的內容”。模型會自動根據用戶的輸入翻譯成對應的語言，無需其他複雜的指令。支持的最大長度 8192，且具備多輪對話的能力。

🎬 示例

以下是一些應用場景示例，展示如何使用模型進行翻譯。

網頁翻譯
- 場景：用戶通過工具及簡單系統提示，將外文網頁內容翻譯成母語。
- 工具：沉浸式翻譯
學術論文翻譯
- 場景：用戶使用工具翻譯外文研究論文，輔助研究工作。
- 工具：沉浸式翻譯
社交媒體翻譯
- 場景：用戶可以使用模型，將不同語言的社交媒體內容翻譯成母語。
- 工具：沉浸式翻譯
視頻字幕翻譯
- 場景：用戶利用工具，結合模型，直接翻譯字幕文件並保存為文件。
- 工具：沉浸式翻譯
PDF 文件翻譯
- 場景：用戶利用工具，結合模型，將 PDF 等文檔翻譯或作為雙語對照。
- 工具：PDFMathTranslate
數據集翻譯
- 場景：用戶利用模型，將外語數據集進行翻譯。
- 工具：wingpt-web-client
視頻網站即時翻譯
- 場景：用戶利用工具，結合模型，在觀看互聯網視頻時即時生成字幕。
- 工具：沉浸式翻譯
視頻翻譯與字幕壓制
- 場景：用戶利用工具，結合模型，將外語視頻生成帶有翻譯字幕的視頻。
- 工具：VideoLingo

⚠️ 重要提示

以上示例展示瞭如何利用工具並結合 WiNGPT - Babel 模型進行文本翻譯。你可以根據自己的需求和習慣，通過工具將其應用到更多場景。

✨ 主要特性

human - in - the - loop 🌱：首先使用少量數據進行初步訓練；接著通過 API 收集使用各種工具的日誌數據，並利用這些日誌構建新的訓練數據。使用 WiNGPT - 2.6 模型和獎勵模型對這些數據進行 rejection sampling，並輔以人工審核以確保數據質量。經過幾輪迭代訓練，模型性能將逐步提升，直至達到預期水平停止。
多格式翻譯 📄 🌐 🎬：支持多種文本格式的翻譯，包括網頁、社交媒體內容、學術論文、視頻字幕以及數據集等。
高精度翻譯 🧠：基於先進的 LLM 架構，致力於提供準確、自然、流暢的翻譯結果。
高性能翻譯 ⏱️：採用 1.5B 模型，支持即時字幕翻譯等應用場景，滿足用戶對即時翻譯的需求。
多語言支持 🗣️：目前支持超過 20 種語言，並不斷擴展語言支持範圍。
應用適配 🪒：目前已適配的工具有：沉浸式翻譯、videolingo。

🧪 適用場景

🌐 網頁內容翻譯：適用於日常網頁瀏覽，快速理解網頁信息。
📄 學術論文翻譯：適用於輔助理解多語言研究論文，提高閱讀效率。
📰 新聞資訊翻譯：適用於快速瞭解全球新聞動態，獲取一手信息。
🎬 視頻字幕翻譯：適用於觀看外語視頻，輔助理解視頻內容。
📊 數據集多語言處理：適用於多語言數據集的初步翻譯，輔助數據分析。

🔤 語言支持（更多語言待驗證）

🇺🇸 English ↔️ 🇨🇳 Chinese | 🇯🇵 Japanese ➡️ 🇨🇳 Chinese

🌱 侷限性

專業術語翻譯：在法律、醫學等高度專業領域、代碼等方面，翻譯結果可能存在偏差。
文學作品翻譯：對於文學作品中的修辭、隱喻等，可能無法完美傳達原文意境。
長文本翻譯：在處理超長文本時，可能會出現翻譯錯誤或者幻覺問題，需要進行分段處理。
多語言適配：目前主要在中英語言場景裡進行使用，其他語言需要更多的測試和反饋。

📄 許可證

本項目授權協議為 Apache License 2.0。
使用本項目包括模型權重時請引用本項目：https://huggingface.co/winninghealth/WiNGPT-Babel。
遵守 [Qwen2.5 - 1.5B](https://huggingface.co/Qwen/Qwen2.5 - 1.5B)， [immersive - translate](https://github.com/immersive - translate/immersive - translate)， VideoLingo 相關協議及其許可證，詳細內容參照其網站。