WiNGPT-Babel开源翻译模型 - 免费部署实现多语言母语级信息体验

首页

Wingpt Babel

由 winninghealth 开发

基于大语言模型（LLM）专为翻译应用定制的模型，致力于提供便捷的多语言母语级信息体验。

机器翻译支持多种语言开源协议:Apache-2.0 #人在回路翻译 #多格式兼容 #实时字幕翻译

下载量 248

发布时间 : 12/17/2024

模型简介

WiNGPT-巴别塔采用'人在回路'的数据生产闭环策略进行训练，支持多种文本格式的翻译，旨在消除语言壁垒，帮助用户更便捷地获取全球互联网信息。

模型特点

人在回路训练

通过API收集工具使用日志构建训练集，结合WiNGPT-2.6模型和奖励模型进行拒绝采样，并辅以人工审核确保质量。

多格式兼容

支持网页、社媒、论文、视频字幕及数据集等多种文本格式的翻译。

精准输出

基于先进LLM架构，提供准确自然、流畅地道的翻译结果。

高效响应

采用1.5B参数模型，满足实时字幕翻译等场景对速度的严苛要求。

广泛语言支持

当前支持20余种语言，并持续扩展语种覆盖。

工具适配

已兼容沉浸式翻译、VideoLingo等实用工具。

模型能力

文本翻译

多语言互译

网页内容翻译

学术文献翻译

社交媒体内容翻译

视频字幕翻译

数据集预处理

使用案例

网页翻译

外文网页翻译

通过沉浸式翻译工具实现外文网页母语化。

提供流畅的母语阅读体验。

学术研究

论文翻译

辅助科研人员理解外文文献。

提升跨国界学术文献的阅读效率。

社交媒体

社媒内容翻译

跨语言社交内容转换。

促进跨语言社交互动。

视频内容

字幕翻译

实时生成翻译字幕文件。

无障碍观看外语视频。

视频压字

生成硬字幕视频。

提供多语言视频内容。

数据处理

数据集翻译

多语言数据预处理。

便于多语言数据分析。

🚀 🌐 WiNGPT-Babel

WiNGPT-Babel（巴别塔）是一个专为翻译应用定制的大语言模型（LLM），致力于为用户提供便捷的多语言信息母语级体验，降低语言障碍，助力用户轻松获取全球互联网信息。

🚀 快速开始

WiNGPT-Babel 选用 Qwen2.5 - 1.5B 作为基础模型，这是在测试比较各种参数规模模型后，对推理速度和翻译质量进行平衡的选择。其在各类应用场景下的翻译速度能达到甚至超越谷歌翻译，这对于使用翻译模型而言至关重要。为帮助大家快速上手，下面提供了示例，使用 Hugging Face Transformers 库进行加载和推理，当然也推荐使用 vllm、llama.cpp、ollama 等推理工具或框架。

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "WiNGPT/WiNGPT-Babel"

model = AutoModelForCausalLM.from_pretrained(
   model_name,
   torch_dtype="auto",
   device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Give me a short introduction to large language model."
messages = [
   {"role": "system", "content": "中英互译下面的内容"},
   {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
   messages,
   tokenize=False,
   add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
   **model_inputs,
   max_new_tokens=4096
)
generated_ids = [
   output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

快速使用 llama.cpp 推理示例

llama-cli -m WiNGPT-Babel-Q4_K_M.gguf -co -i -if -p "<|im_start|>system\n中英互译下面的内容<|im_end|>\n" --in-prefix "<|im_start|>user\n" --in-suffix "<|im_end|>\n<|im_start|>assistant\n" -fa -ngl 80 -n 512

⚠️ 重要提示

WiNGPT-Babel 默认系统提示词仅为：“中英互译下面的内容”。模型会自动根据用户的输入翻译成对应的语言，无需其他复杂的指令。支持的最大长度 8192，且具备多轮对话的能力。

🎬 示例

以下是一些应用场景示例，展示如何使用模型进行翻译。

网页翻译
- 场景：用户通过工具及简单系统提示，将外文网页内容翻译成母语。
- 工具：沉浸式翻译
学术论文翻译
- 场景：用户使用工具翻译外文研究论文，辅助研究工作。
- 工具：沉浸式翻译
社交媒体翻译
- 场景：用户可以使用模型，将不同语言的社交媒体内容翻译成母语。
- 工具：沉浸式翻译
视频字幕翻译
- 场景：用户利用工具，结合模型，直接翻译字幕文件并保存为文件。
- 工具：沉浸式翻译
PDF 文件翻译
- 场景：用户利用工具，结合模型，将 PDF 等文档翻译或作为双语对照。
- 工具：PDFMathTranslate
数据集翻译
- 场景：用户利用模型，将外语数据集进行翻译。
- 工具：wingpt-web-client
视频网站实时翻译
- 场景：用户利用工具，结合模型，在观看互联网视频时实时生成字幕。
- 工具：沉浸式翻译
视频翻译与字幕压制
- 场景：用户利用工具，结合模型，将外语视频生成带有翻译字幕的视频。
- 工具：VideoLingo

⚠️ 重要提示

以上示例展示了如何利用工具并结合 WiNGPT - Babel 模型进行文本翻译。你可以根据自己的需求和习惯，通过工具将其应用到更多场景。

✨ 主要特性

human - in - the - loop 🌱：首先使用少量数据进行初步训练；接着通过 API 收集使用各种工具的日志数据，并利用这些日志构建新的训练数据。使用 WiNGPT - 2.6 模型和奖励模型对这些数据进行 rejection sampling，并辅以人工审核以确保数据质量。经过几轮迭代训练，模型性能将逐步提升，直至达到预期水平停止。
多格式翻译 📄 🌐 🎬：支持多种文本格式的翻译，包括网页、社交媒体内容、学术论文、视频字幕以及数据集等。
高精度翻译 🧠：基于先进的 LLM 架构，致力于提供准确、自然、流畅的翻译结果。
高性能翻译 ⏱️：采用 1.5B 模型，支持实时字幕翻译等应用场景，满足用户对实时翻译的需求。
多语言支持 🗣️：目前支持超过 20 种语言，并不断扩展语言支持范围。
应用适配 🪒：目前已适配的工具有：沉浸式翻译、videolingo。

🧪 适用场景

🌐 网页内容翻译：适用于日常网页浏览，快速理解网页信息。
📄 学术论文翻译：适用于辅助理解多语言研究论文，提高阅读效率。
📰 新闻资讯翻译：适用于快速了解全球新闻动态，获取一手信息。
🎬 视频字幕翻译：适用于观看外语视频，辅助理解视频内容。
📊 数据集多语言处理：适用于多语言数据集的初步翻译，辅助数据分析。

🔤 语言支持（更多语言待验证）

🇺🇸 English ↔️ 🇨🇳 Chinese | 🇯🇵 Japanese ➡️ 🇨🇳 Chinese

🌱 局限性

专业术语翻译：在法律、医学等高度专业领域、代码等方面，翻译结果可能存在偏差。
文学作品翻译：对于文学作品中的修辞、隐喻等，可能无法完美传达原文意境。
长文本翻译：在处理超长文本时，可能会出现翻译错误或者幻觉问题，需要进行分段处理。
多语言适配：目前主要在中英语言场景里进行使用，其他语言需要更多的测试和反馈。

📄 许可证

本项目授权协议为 Apache License 2.0。
使用本项目包括模型权重时请引用本项目：https://huggingface.co/winninghealth/WiNGPT-Babel。
遵守 [Qwen2.5 - 1.5B](https://huggingface.co/Qwen/Qwen2.5 - 1.5B)， [immersive - translate](https://github.com/immersive - translate/immersive - translate)， VideoLingo 相关协议及其许可证，详细内容参照其网站。