Orpheus-3b-Korean-FT-Q8_0.gguf开源语音模型 - 实现韩语文本自然情感语音合成

首页

Orpheus 3b Korean FT Q8 0.gguf

由 lex-au 开发

Orpheus是一款高性能韩语文本转语音模型，专为自然情感语音合成而微调，提供8位量化版本以优化效率。

语音合成支持多种语言开源协议:Apache-2.0 #韩语语音合成 #情感语音生成 #8位量化

下载量 29

发布时间 : 4/18/2025

模型简介

30亿参数的文本转语音模型，支持多种音色和情感表达，生成24kHz高品质音频，针对对话自然度进行微调。

模型特点

8位量化

模型量化为8位(Q8_0)格式，在保持高质量输出的同时优化了推理效率

多音色支持

提供2种特色鲜明的可选音色（女性'유나'和男性'준서'）

情感表达

支持通过标签添加笑声、叹息等情感表达，增强语音自然度

高性能推理

针对RTX显卡的CUDA加速优化，适合消费级硬件运行

模型能力

韩语语音合成

情感语音生成

多音色转换

24kHz音频输出

使用案例

语音交互应用

虚拟助手

为韩语虚拟助手提供自然语音输出

生成带情感变化的高质量响应语音

有声内容创作

自动生成带情感表达的韩语有声内容

可控制音色和情感标签的语音输出

辅助技术

屏幕阅读器

为视障用户提供更自然的韩语语音反馈

比传统TTS更接近人类语音的表达

🚀 Orpheus-3b-FT-Q8_0

Orpheus-3b-FT-Q8_0 是一个高性能的文本转语音（TTS）模型，它经过微调，能够实现自然、富有情感的语音合成。本仓库提供的是 30 亿参数模型的 8 位量化版本，在保证高效推理的同时，仍能输出高质量的语音。

🚀 快速开始

从 lex-au 的 Orpheus-FASTAPI 集合下载此量化模型。
将模型加载到你首选的大语言模型（LLM）推理服务器中，并启动服务器。
克隆 Orpheus-FastAPI 仓库：

git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI

通过设置 ORPHEUS_API_URL 环境变量，配置 FastAPI 服务器以连接到你的推理服务器。
遵循仓库 README 中的完整安装和设置说明。

✨ 主要特性

提供 2 种具有不同特征的独特语音选项。
支持诸如笑声、叹息声等情感标签。
针对 RTX GPU 的 CUDA 加速进行了优化。
生成高质量的 24kHz 单声道音频。
针对对话自然度进行了微调。

📦 安装指南

兼容的推理服务器

此量化模型可以加载到以下任何 LLM 推理服务器中：

GPUStack - GPU 优化的 LLM 推理服务器（推荐） - 支持局域网/广域网张量拆分并行化。
LM Studio - 加载 GGUF 模型并启动本地服务器。
llama.cpp server - 使用适当的模型参数运行。
任何兼容的 OpenAI API 服务器。

💻 使用示例

基础用法

该模型旨在与连接到 Orpheus-FastAPI 前端的 LLM 推理服务器一起使用，该前端提供了 Web UI 和兼容 OpenAI 的 API 端点。

高级用法

可用语音

模型支持 2 种不同的语音：

유나：女性，韩语，旋律优美。
준서：男性，韩语，自信沉稳。

情感标签

你可以通过插入标签为语音添加表现力：

<laugh>、<chuckle>：用于笑声。
<sigh>：用于叹息声。
<cough>、<sniffle>：用于细微的中断声。
<groan>、<yawn>、<gasp>：用于额外的情感表达。

📚 详细文档

模型描述

Orpheus-3b-FT-Q8_0 是一个拥有 30 亿参数的文本转语音模型，它可以将文本输入转换为自然流畅的语音，支持多种语音和情感表达。该模型已被量化为 8 位（Q8_0）格式，以实现高效推理，使其能够在消费级硬件上运行。

🔧 技术细节

属性	详情
模型类型	专门的令牌到音频序列模型
训练数据	内部数据集
参数数量	约 30 亿
量化格式	8 位（GGUF Q8_0 格式）
音频采样率	24kHz
输入	文本，可选语音选择和情感标签
输出	高质量 WAV 音频
支持语言	韩语
硬件要求	支持 CUDA 的 GPU（推荐：RTX 系列）
集成方法	外部 LLM 推理服务器 + Orpheus-FastAPI 前端

📄 许可证

此模型遵循 Apache 许可证 2.0。

引用与归属

原始的 Orpheus 模型由 Canopy Labs 创建。本仓库包含的是为与 Orpheus-FastAPI 服务器配合使用而优化的量化版本。

如果您在研究或应用中使用此量化模型，请引用：

@misc{orpheus-tts-2025,
  author = {Canopy Labs},
  title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}

@misc{orpheus-quantised-2025,
  author = {Lex-au},
  title = {Orpheus-3b-FT-Q8_0: Quantised TTS Model with FastAPI Server},
  note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q8_0.gguf}}
}