🚀 🌐 WiNGPT-Babel
WiNGPT-Babel(巴別塔)是一個專為翻譯應用定製的大語言模型(LLM),致力於為用戶提供便捷的多語言信息母語級體驗,降低語言障礙,助力用戶輕鬆獲取全球互聯網信息。
🚀 快速開始
WiNGPT-Babel 選用 Qwen2.5 - 1.5B 作為基礎模型,這是在測試比較各種參數規模模型後,對推理速度和翻譯質量進行平衡的選擇。其在各類應用場景下的翻譯速度能達到甚至超越谷歌翻譯,這對於使用翻譯模型而言至關重要。為幫助大家快速上手,下面提供了示例,使用 Hugging Face Transformers 庫進行加載和推理,當然也推薦使用 vllm、llama.cpp、ollama 等推理工具或框架。
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "WiNGPT/WiNGPT-Babel"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto" ,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
{"role" : "system" , "content" : "中英互譯下面的內容" },
{"role" : "user" , "content" : prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False ,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt" ).to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096
)
generated_ids = [
output_ids[len (input_ids):] for input_ids, output_ids in zip (model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True )[0 ]
快速使用 llama.cpp 推理示例
llama-cli -m WiNGPT-Babel-Q4_K_M.gguf -co -i -if -p "<|im_start|>system\n中英互譯下面的內容<|im_end|>\n" --in-prefix "<|im_start|>user\n" --in-suffix "<|im_end|>\n<|im_start|>assistant\n" -fa -ngl 80 -n 512
⚠️ 重要提示
WiNGPT-Babel 默認系統提示詞僅為:“中英互譯下面的內容”。模型會自動根據用戶的輸入翻譯成對應的語言,無需其他複雜的指令。支持的最大長度 8192,且具備多輪對話的能力。
🎬 示例
以下是一些應用場景示例,展示如何使用模型進行翻譯。
網頁翻譯
場景 :用戶通過工具及簡單系統提示,將外文網頁內容翻譯成母語。
工具 :沉浸式翻譯
學術論文翻譯
場景 :用戶使用工具翻譯外文研究論文,輔助研究工作。
工具 :沉浸式翻譯
社交媒體翻譯
場景 :用戶可以使用模型,將不同語言的社交媒體內容翻譯成母語。
工具 :沉浸式翻譯
視頻字幕翻譯
場景 :用戶利用工具,結合模型,直接翻譯字幕文件並保存為文件。
工具 :沉浸式翻譯
PDF 文件翻譯
場景 :用戶利用工具,結合模型,將 PDF 等文檔翻譯或作為雙語對照。
工具 :PDFMathTranslate
數據集翻譯
場景 :用戶利用模型,將外語數據集進行翻譯。
工具 :wingpt-web-client
視頻網站即時翻譯
場景 :用戶利用工具,結合模型,在觀看互聯網視頻時即時生成字幕。
工具 :沉浸式翻譯
視頻翻譯與字幕壓制
場景 :用戶利用工具,結合模型,將外語視頻生成帶有翻譯字幕的視頻。
工具 :VideoLingo
⚠️ 重要提示
以上示例展示瞭如何利用工具並結合 WiNGPT - Babel 模型進行文本翻譯。你可以根據自己的需求和習慣,通過工具將其應用到更多場景。
✨ 主要特性
human - in - the - loop 🌱 :首先使用少量數據進行初步訓練;接著通過 API 收集使用各種工具的日誌數據,並利用這些日誌構建新的訓練數據。使用 WiNGPT - 2.6 模型和獎勵模型對這些數據進行 rejection sampling,並輔以人工審核以確保數據質量。經過幾輪迭代訓練,模型性能將逐步提升,直至達到預期水平停止。
多格式翻譯 📄 🌐 🎬 :支持多種文本格式的翻譯,包括網頁、社交媒體內容、學術論文、視頻字幕以及數據集等。
高精度翻譯 🧠 :基於先進的 LLM 架構,致力於提供準確、自然、流暢的翻譯結果。
高性能翻譯 ⏱️ :採用 1.5B 模型,支持即時字幕翻譯等應用場景,滿足用戶對即時翻譯的需求。
多語言支持 🗣️ :目前支持超過 20 種語言,並不斷擴展語言支持範圍。
應用適配 🪒 :目前已適配的工具有:沉浸式翻譯、videolingo。
🧪 適用場景
🌐 網頁內容翻譯 :適用於日常網頁瀏覽,快速理解網頁信息。
📄 學術論文翻譯 :適用於輔助理解多語言研究論文,提高閱讀效率。
📰 新聞資訊翻譯 :適用於快速瞭解全球新聞動態,獲取一手信息。
🎬 視頻字幕翻譯 :適用於觀看外語視頻,輔助理解視頻內容。
📊 數據集多語言處理 :適用於多語言數據集的初步翻譯,輔助數據分析。
🔤 語言支持(更多語言待驗證)
🇺🇸 English ↔️ 🇨🇳 Chinese | 🇯🇵 Japanese ➡️ 🇨🇳 Chinese
🌱 侷限性
專業術語翻譯 :在法律、醫學等高度專業領域、代碼等方面,翻譯結果可能存在偏差。
文學作品翻譯 :對於文學作品中的修辭、隱喻等,可能無法完美傳達原文意境。
長文本翻譯 :在處理超長文本時,可能會出現翻譯錯誤或者幻覺問題,需要進行分段處理。
多語言適配 :目前主要在中英語言場景裡進行使用,其他語言需要更多的測試和反饋。
📄 許可證
本項目授權協議為 Apache License 2.0。
使用本項目包括模型權重時請引用本項目:https://huggingface.co/winninghealth/WiNGPT-Babel。
遵守 [Qwen2.5 - 1.5B](https://huggingface.co/Qwen/Qwen2.5 - 1.5B), [immersive - translate](https://github.com/immersive - translate/immersive - translate), VideoLingo 相關協議及其許可證,詳細內容參照其網站。
聯繫我們