🚀 Orpheus-3b-FT-Q8_0
Orpheus-3b-FT-Q8_0 是一个高性能的文本转语音(TTS)模型,它经过微调,能够实现自然、富有情感的语音合成。本仓库托管的是 30 亿参数模型的 8 位量化版本,在保证输出高质量语音的同时,优化了推理效率。
🚀 快速开始
下载模型
从 lex-au 的 Orpheus-FASTAPI 集合 下载此量化模型。
加载模型到推理服务器
此量化模型可以加载到以下任意 LLM 推理服务器中:
配置 Orpheus-FastAPI
- 克隆 Orpheus-FastAPI 仓库:
git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI
- 通过设置
ORPHEUS_API_URL
环境变量,将 FastAPI 服务器配置为连接到你的推理服务器。
- 遵循 仓库 README 中的完整安装和设置说明。
✨ 主要特性
- 多种语音选择:提供 6 种不同特征的语音选项。
- 情感标签支持:支持如笑声、叹息等情感标签。
- CUDA 加速优化:针对 RTX GPU 进行了 CUDA 加速优化。
- 高质量音频输出:生成 24kHz 的单声道高质量音频。
- 对话自然度微调:针对对话自然度进行了微调。
可用语音
Javi
:男性,西班牙语,温暖风格
Sergio
:男性,西班牙语,专业风格
Maria
:女性,西班牙语,友好风格
Pietro
:男性,意大利语,热情风格
Giulia
:女性,意大利语,富有表现力
Carlo
:男性,意大利语,优雅风格
情感标签
你可以通过插入以下标签为语音添加表现力:
<laugh>
、<chuckle>
:用于笑声
<sigh>
:用于叹息声
<cough>
、<sniffle>
:用于轻微的中断声
<groan>
、<yawn>
、<gasp>
:用于额外的情感表达
📚 详细文档
模型描述
Orpheus-3b-FT-Q8_0 是一个 30 亿参数的文本转语音模型,它可以将文本输入转换为自然的语音,支持多种语音和情感表达。该模型已量化为 8 位(Q8_0)格式,以实现高效推理,使其能够在消费级硬件上运行。
适用推理服务器
此量化模型可加载到任何兼容的 LLM 推理服务器中,包括上述提到的 GPUStack、LM Studio、llama.cpp server 以及任何兼容的 OpenAI API 服务器。
🔧 技术细节
属性 |
详情 |
模型类型 |
专门的令牌到音频序列模型 |
训练数据 |
内部数据集 |
参数数量 |
约 30 亿 |
量化格式 |
8 位(GGUF Q8_0 格式) |
音频采样率 |
24kHz |
输入 |
文本,可选语音选择和情感标签 |
输出 |
高质量 WAV 音频 |
支持语言 |
意大利语、西班牙语 |
硬件要求 |
支持 CUDA 的 GPU(推荐 RTX 系列) |
集成方法 |
外部 LLM 推理服务器 + Orpheus-FastAPI 前端 |
⚠️ 注意事项
- 该模型在支持 CUDA 的 GPU 上性能最佳。
- 生成速度取决于 GPU 性能。
📄 许可证
本模型采用 Apache 许可证 2.0。
📖 引用与归属
如果你在研究或应用中使用此量化模型,请引用以下内容:
@misc{orpheus-tts-2025,
author = {Canopy Labs},
title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}
@misc{orpheus-quantised-2025,
author = {Lex-au},
title = {Orpheus-3b-FT-Q8_0: Quantised TTS Model with FastAPI Server},
note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q8_0.gguf}}
}