Orpheus开源德语文本转语音模型 - 免费部署实现自然有情感语音合成

首页

Orpheus 3b German FT Q8 0.gguf

由 lex-au 开发

Orpheus是一款高性能德语文本转语音模型，经过精调可实现自然且富有情感的语音合成。本模型是30亿参数模型的8位量化版本，优化了运行效率。

语音合成支持多种语言开源协议:Apache-2.0 #德语TTS #多音色合成 #情感语音生成

下载量 130

发布时间 : 4/17/2025

模型简介

专为德语设计的文本转语音模型，支持多音色和情感表达，生成24kHz高质量音频。

模型特点

多音色支持

提供3种不同音色选项（Jana女声、Thomas男声、Max男声）

情感表达

支持通过标签插入笑声、叹息等情感表达

高效推理

8位量化版本，在保持高质量输出的同时优化运行效率

高质量音频

生成24kHz单声道高质量音频

模型能力

德语文本转语音

多音色语音合成

情感化语音生成

高质量音频输出

使用案例

语音合成应用

有声读物生成

为德语内容创建自然流畅的有声读物

生成具有情感表达的高质量语音

语音助手

为德语语音助手提供自然语音输出

支持多种音色和情感表达

教育应用

用于语言学习应用的发音示范

提供清晰准确的德语发音

🚀 Orpheus-3b-German-FT-Q8_0

Orpheus-3b-German-FT-Q8_0 是一个高性能的文本转语音（TTS）模型，它经过微调，能够实现自然、富有情感的语音合成。本仓库提供的是 30 亿参数模型的 8 位量化版本，在保证输出高质量语音的同时，还优化了推理效率。

🚀 快速开始

下载模型

从 lex-au 的 Orpheus-FASTAPI 集合下载此量化模型。

加载模型

将模型加载到你首选的大语言模型（LLM）推理服务器中并启动服务器。以下是一些兼容的推理服务器：

GPUStack - 针对 GPU 优化的 LLM 推理服务器（推荐），支持局域网/广域网张量拆分并行化。
LM Studio - 加载 GGUF 模型并启动本地服务器。
llama.cpp server - 使用适当的模型参数运行。
任何兼容 OpenAI API 的服务器。

克隆仓库

git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI

配置服务器

通过设置 ORPHEUS_API_URL 环境变量，将 FastAPI 服务器配置为连接到你的推理服务器。

完成安装和设置

请遵循仓库 README 中的完整安装和设置说明。

✨ 主要特性

多种语音选择：提供 3 种不同特点的语音选项。
情感标签支持：支持如笑声、叹息等情感标签。
CUDA 加速优化：针对 RTX GPU 进行了 CUDA 加速优化。
高质量音频输出：生成 24kHz 的单声道高质量音频。
自然对话优化：经过微调，语音更符合自然对话风格。

可用语音

Jana：女性，德语，声音清晰。
Thomas：男性，德语，声音权威。
Max：男性，德语，声音富有活力。

情感标签

你可以通过插入以下标签为语音添加表现力：

<laugh>、<chuckle>：用于笑声。
<sigh>：用于叹息声。
<cough>、<sniffle>：用于轻微的中断声。
<groan>、<yawn>、<gasp>：用于额外的情感表达。

📚 详细文档

模型描述

Orpheus-3b-FT-Q8_0 是一个拥有 30 亿参数的文本转语音模型，它可以将文本输入转换为自然的语音，支持多种语音和情感表达。该模型已被量化为 8 位（Q8_0）格式，以实现高效推理，使其能够在消费级硬件上运行。

技术规格

属性	详情
模型类型	专门的令牌到音频序列模型
参数量	约 30 亿
量化格式	8 位（GGUF Q8_0 格式）
音频采样率	24kHz
输入	文本，可选语音选择和情感标签
输出	高质量 WAV 音频
语言	德语
硬件要求	支持 CUDA 的 GPU（推荐：RTX 系列）
集成方法	外部 LLM 推理服务器 + Orpheus-FastAPI 前端

局限性

在支持 CUDA 的 GPU 上可实现最佳性能。
生成速度取决于 GPU 性能。

📄 许可证

本模型遵循 Apache 许可证 2.0。

🔧 技术细节

引用与归属

原始的 Orpheus 模型由 Canopy Labs 创建。本仓库包含的是为 Orpheus-FastAPI 服务器优化的量化版本。

如果你在研究或应用中使用了此量化模型，请引用：

@misc{orpheus-tts-2025,
  author = {Canopy Labs},
  title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}

@misc{orpheus-quantised-2025,
  author = {Lex-au},
  title = {Orpheus-3b-FT-Q8_0: Quantised TTS Model with FastAPI Server},
  note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q8_0.gguf}}
}