Orpheus-3b-Korean-FT-Q8_0.gguf開源語音模型 - 實現韓語文本自然情感語音合成

首頁

Orpheus 3b Korean FT Q8 0.gguf

由lex-au開發

Orpheus是一款高性能韓語文本轉語音模型，專為自然情感語音合成而微調，提供8位量化版本以優化效率。

語音合成支持多種語言開源協議:Apache-2.0 #韓語語音合成 #情感語音生成 #8位量化

下載量 29

發布時間 : 4/18/2025

模型概述

30億參數的文本轉語音模型，支持多種音色和情感表達，生成24kHz高品質音頻，針對對話自然度進行微調。

模型特點

8位量化

模型量化為8位(Q8_0)格式，在保持高質量輸出的同時優化了推理效率

多音色支持

提供2種特色鮮明的可選音色（女性'유나'和男性'준서'）

情感表達

支持通過標籤添加笑聲、嘆息等情感表達，增強語音自然度

高性能推理

針對RTX顯卡的CUDA加速優化，適合消費級硬件運行

模型能力

韓語語音合成

情感語音生成

多音色轉換

24kHz音頻輸出

使用案例

語音交互應用

虛擬助手

為韓語虛擬助手提供自然語音輸出

生成帶情感變化的高質量響應語音

有聲內容創作

自動生成帶情感表達的韓語有聲內容

可控制音色和情感標籤的語音輸出

輔助技術

屏幕閱讀器

為視障用戶提供更自然的韓語語音反饋

比傳統TTS更接近人類語音的表達

🚀 Orpheus-3b-FT-Q8_0

Orpheus-3b-FT-Q8_0 是一個高性能的文本轉語音（TTS）模型，它經過微調，能夠實現自然、富有情感的語音合成。本倉庫提供的是 30 億參數模型的 8 位量化版本，在保證高效推理的同時，仍能輸出高質量的語音。

🚀 快速開始

從 lex-au 的 Orpheus-FASTAPI 集合下載此量化模型。
將模型加載到你首選的大語言模型（LLM）推理服務器中，並啟動服務器。
克隆 Orpheus-FastAPI 倉庫：

git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI

通過設置 ORPHEUS_API_URL 環境變量，配置 FastAPI 服務器以連接到你的推理服務器。
遵循倉庫 README 中的完整安裝和設置說明。

✨ 主要特性

提供 2 種具有不同特徵的獨特語音選項。
支持諸如笑聲、嘆息聲等情感標籤。
針對 RTX GPU 的 CUDA 加速進行了優化。
生成高質量的 24kHz 單聲道音頻。
針對對話自然度進行了微調。

📦 安裝指南

兼容的推理服務器

此量化模型可以加載到以下任何 LLM 推理服務器中：

GPUStack - GPU 優化的 LLM 推理服務器（推薦） - 支持局域網/廣域網張量拆分並行化。
LM Studio - 加載 GGUF 模型並啟動本地服務器。
llama.cpp server - 使用適當的模型參數運行。
任何兼容的 OpenAI API 服務器。

💻 使用示例

基礎用法

該模型旨在與連接到 Orpheus-FastAPI 前端的 LLM 推理服務器一起使用，該前端提供了 Web UI 和兼容 OpenAI 的 API 端點。

高級用法

可用語音

模型支持 2 種不同的語音：

유나：女性，韓語，旋律優美。
준서：男性，韓語，自信沉穩。

情感標籤

你可以通過插入標籤為語音添加表現力：

<laugh>、<chuckle>：用於笑聲。
<sigh>：用於嘆息聲。
<cough>、<sniffle>：用於細微的中斷聲。
<groan>、<yawn>、<gasp>：用於額外的情感表達。

📚 詳細文檔

模型描述

Orpheus-3b-FT-Q8_0 是一個擁有 30 億參數的文本轉語音模型，它可以將文本輸入轉換為自然流暢的語音，支持多種語音和情感表達。該模型已被量化為 8 位（Q8_0）格式，以實現高效推理，使其能夠在消費級硬件上運行。

🔧 技術細節

屬性	詳情
模型類型	專門的令牌到音頻序列模型
訓練數據	內部數據集
參數數量	約 30 億
量化格式	8 位（GGUF Q8_0 格式）
音頻採樣率	24kHz
輸入	文本，可選語音選擇和情感標籤
輸出	高質量 WAV 音頻
支持語言	韓語
硬件要求	支持 CUDA 的 GPU（推薦：RTX 系列）
集成方法	外部 LLM 推理服務器 + Orpheus-FastAPI 前端

📄 許可證

此模型遵循 Apache 許可證 2.0。

引用與歸屬

原始的 Orpheus 模型由 Canopy Labs 創建。本倉庫包含的是為與 Orpheus-FastAPI 服務器配合使用而優化的量化版本。

如果您在研究或應用中使用此量化模型，請引用：

@misc{orpheus-tts-2025,
  author = {Canopy Labs},
  title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}

@misc{orpheus-quantised-2025,
  author = {Lex-au},
  title = {Orpheus-3b-FT-Q8_0: Quantised TTS Model with FastAPI Server},
  note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q8_0.gguf}}
}