Orpheus開源德語文本轉語音模型 - 免費部署實現自然有情感語音合成

首頁

Orpheus 3b German FT Q8 0.gguf

由lex-au開發

Orpheus是一款高性能德語文本轉語音模型，經過精調可實現自然且富有情感的語音合成。本模型是30億參數模型的8位量化版本，優化了運行效率。

語音合成支持多種語言開源協議:Apache-2.0 #德語TTS #多音色合成 #情感語音生成

下載量 130

發布時間 : 4/17/2025

模型概述

專為德語設計的文本轉語音模型，支持多音色和情感表達，生成24kHz高質量音頻。

模型特點

多音色支持

提供3種不同音色選項（Jana女聲、Thomas男聲、Max男聲）

情感表達

支持通過標籤插入笑聲、嘆息等情感表達

高效推理

8位量化版本，在保持高質量輸出的同時優化運行效率

高質量音頻

生成24kHz單聲道高質量音頻

模型能力

德語文本轉語音

多音色語音合成

情感化語音生成

高質量音頻輸出

使用案例

語音合成應用

有聲讀物生成

為德語內容創建自然流暢的有聲讀物

生成具有情感表達的高質量語音

語音助手

為德語語音助手提供自然語音輸出

支持多種音色和情感表達

教育應用

用於語言學習應用的發音示範

提供清晰準確的德語發音

🚀 Orpheus-3b-German-FT-Q8_0

Orpheus-3b-German-FT-Q8_0 是一個高性能的文本轉語音（TTS）模型，它經過微調，能夠實現自然、富有情感的語音合成。本倉庫提供的是 30 億參數模型的 8 位量化版本，在保證輸出高質量語音的同時，還優化了推理效率。

🚀 快速開始

下載模型

從 lex-au 的 Orpheus-FASTAPI 集合下載此量化模型。

加載模型

將模型加載到你首選的大語言模型（LLM）推理服務器中並啟動服務器。以下是一些兼容的推理服務器：

GPUStack - 針對 GPU 優化的 LLM 推理服務器（推薦），支持局域網/廣域網張量拆分並行化。
LM Studio - 加載 GGUF 模型並啟動本地服務器。
llama.cpp server - 使用適當的模型參數運行。
任何兼容 OpenAI API 的服務器。

克隆倉庫

git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI

配置服務器

通過設置 ORPHEUS_API_URL 環境變量，將 FastAPI 服務器配置為連接到你的推理服務器。

完成安裝和設置

請遵循倉庫 README 中的完整安裝和設置說明。

✨ 主要特性

多種語音選擇：提供 3 種不同特點的語音選項。
情感標籤支持：支持如笑聲、嘆息等情感標籤。
CUDA 加速優化：針對 RTX GPU 進行了 CUDA 加速優化。
高質量音頻輸出：生成 24kHz 的單聲道高質量音頻。
自然對話優化：經過微調，語音更符合自然對話風格。

可用語音

Jana：女性，德語，聲音清晰。
Thomas：男性，德語，聲音權威。
Max：男性，德語，聲音富有活力。

情感標籤

你可以通過插入以下標籤為語音添加表現力：

<laugh>、<chuckle>：用於笑聲。
<sigh>：用於嘆息聲。
<cough>、<sniffle>：用於輕微的中斷聲。
<groan>、<yawn>、<gasp>：用於額外的情感表達。

📚 詳細文檔

模型描述

Orpheus-3b-FT-Q8_0 是一個擁有 30 億參數的文本轉語音模型，它可以將文本輸入轉換為自然的語音，支持多種語音和情感表達。該模型已被量化為 8 位（Q8_0）格式，以實現高效推理，使其能夠在消費級硬件上運行。

技術規格

屬性	詳情
模型類型	專門的令牌到音頻序列模型
參數量	約 30 億
量化格式	8 位（GGUF Q8_0 格式）
音頻採樣率	24kHz
輸入	文本，可選語音選擇和情感標籤
輸出	高質量 WAV 音頻
語言	德語
硬件要求	支持 CUDA 的 GPU（推薦：RTX 系列）
集成方法	外部 LLM 推理服務器 + Orpheus-FastAPI 前端

侷限性

在支持 CUDA 的 GPU 上可實現最佳性能。
生成速度取決於 GPU 性能。

📄 許可證

本模型遵循 Apache 許可證 2.0。

🔧 技術細節

引用與歸屬

原始的 Orpheus 模型由 Canopy Labs 創建。本倉庫包含的是為 Orpheus-FastAPI 服務器優化的量化版本。

如果你在研究或應用中使用了此量化模型，請引用：

@misc{orpheus-tts-2025,
  author = {Canopy Labs},
  title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}

@misc{orpheus-quantised-2025,
  author = {Lex-au},
  title = {Orpheus-3b-FT-Q8_0: Quantised TTS Model with FastAPI Server},
  note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q8_0.gguf}}
}