奥菲斯3b法语文本转语音开源模型 - 高效产出自然情感语音合成效果

首页

Orpheus 3b French FT Q8 0.gguf

由 lex-au 开发

奥菲斯是一款高性能文本转语音模型，专为自然情感语音合成而微调。本仓库托管了30亿参数模型的8位量化版本，在保持高质量输出的同时优化了效率。

语音合成支持多种语言开源协议:Apache-2.0 #法语TTS #情感语音合成 #8位量化

下载量 101

发布时间 : 4/18/2025

模型简介

奥菲斯是一款高性能文本转语音模型，可将文本输入转换为自然语音，支持多种音色和情感表达。该模型已量化为8位(Q8_0)格式以实现高效推理，使其可在消费级硬件上运行。

模型特点

多音色支持

支持3种不同特性的可选音色：Pierre（男声）、Amelie（女声）、Marie（女声）

情感表达

支持笑声、叹息等情感标签，增强语音表现力

高效推理

8位量化格式优化了效率，可在消费级硬件上运行

高品质音频

生成24kHz单声道高品质音频

模型能力

文本转语音

情感语音合成

多音色语音生成

使用案例

语音合成

有声读物生成

将法语文本转换为自然语音，用于有声读物制作

生成带有情感表达的高品质语音

语音助手

为法语语音助手提供自然语音输出

支持多种音色和情感表达

🚀 Orpheus-3b-FT-Q8_0

Orpheus-3b-FT-Q8_0 是一个高性能的文本转语音（TTS）模型，它经过微调，能够实现自然、富有情感的语音合成。本项目是 canopylabs/3b-fr-ft-research_release 的 8 位量化版本，在保证输出高质量语音的同时，优化了推理效率，适合在消费级硬件上运行。

🚀 快速开始

下载模型

从 lex-au 的 Orpheus-FASTAPI 模型集合下载此量化模型。

加载模型

将模型加载到你选择的大语言模型（LLM）推理服务器中并启动服务器。以下是一些兼容的推理服务器：

GPUStack - 针对 GPU 优化的 LLM 推理服务器（推荐），支持局域网/广域网张量拆分并行化。
LM Studio - 加载 GGUF 模型并启动本地服务器。
llama.cpp server - 使用适当的模型参数运行。
任何兼容 OpenAI API 的服务器。

配置 FastAPI 服务器

# 克隆 Orpheus-FastAPI 仓库
git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI

# 通过设置 ORPHEUS_API_URL 环境变量，配置 FastAPI 服务器以连接到你的推理服务器

完成安装和设置

请遵循仓库 README 中的完整安装和设置说明。

✨ 主要特性

多种语音选择：提供 3 种具有不同特征的语音选项。
情感标签支持：支持如笑声、叹息声等情感标签，让语音更具表现力。
CUDA 加速优化：针对 RTX GPU 进行了 CUDA 加速优化。
高质量音频输出：生成 24kHz 的单声道高质量音频。
对话自然度微调：经过微调，语音在对话场景中更加自然。

📦 安装指南

此量化模型可以加载到以下任何 LLM 推理服务器中：

GPUStack - GPU 优化的 LLM 推理服务器（推荐），支持局域网/广域网张量拆分并行化。
LM Studio - 加载 GGUF 模型并启动本地服务器。
llama.cpp server - 使用适当的模型参数运行。
任何兼容 OpenAI API 的服务器。

💻 使用示例

可用语音

模型支持 3 种不同的语音：

Pierre：男性，法语，风格优雅。
Amelie：女性，法语，气质优雅。
Marie：女性，法语，充满活力。

情感标签

你可以通过插入以下标签为语音添加表现力：

<laugh>、<chuckle>：用于笑声。
<sigh>：用于叹息声。
<cough>、<sniffle>：用于轻微的中断声。
<groan>、<yawn>、<gasp>：用于额外的情感表达。

📚 详细文档

模型描述

Orpheus-3b-FT-Q8_0 是一个拥有约 30 亿参数的文本转语音模型，它可以将文本输入转换为自然的语音，并支持多种语音和情感表达。该模型已被量化为 8 位（Q8_0）格式，以实现高效推理，使其能够在消费级硬件上运行。

技术规格

属性	详情
架构	专门的令牌到音频序列模型
参数数量	约 30 亿
量化格式	8 位（GGUF Q8_0 格式）
音频采样率	24kHz
输入	文本，可选语音选择和情感标签
输出	高质量 WAV 音频
语言	法语
硬件要求	支持 CUDA 的 GPU（推荐：RTX 系列）
集成方法	外部 LLM 推理服务器 + Orpheus-FastAPI 前端

局限性

在支持 CUDA 的 GPU 上可实现最佳性能。
生成速度取决于 GPU 性能。

📄 许可证

此模型遵循 Apache 许可证 2.0。

🔗 引用与归属

原始的 Orpheus 模型由 Canopy Labs 创建。本仓库包含一个为 Orpheus-FastAPI 服务器优化的量化版本。

如果您在研究或应用中使用此量化模型，请引用：

@misc{orpheus-tts-2025,
  author = {Canopy Labs},
  title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}

@misc{orpheus-quantised-2025,
  author = {Lex-au},
  title = {Orpheus-3b-FT-Q8_0: Quantised TTS Model with FastAPI Server},
  note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q8_0.gguf}}
}