Orpheus-3b-Hindi-FT-Q8_0.gguf開源文本轉語音模型

首頁

Orpheus 3b Hindi FT Q8 0.gguf

由lex-au開發

俄耳甫斯是一款高性能文本轉語音模型，專為自然情感語音合成而微調。本倉庫託管了30億參數模型的8位量化版本，在保持高質量輸出的同時優化了效率。

語音合成其他開源協議:Apache-2.0 #印地語TTS #情感語音合成 #8位量化

下載量 42

發布時間 : 4/18/2025

模型概述

俄耳甫斯是一款高性能文本轉語音模型，支持多種音色和情感表達，可將文本輸入轉換為自然語音。該模型已量化為8位(Q8_0)格式以實現高效推理，使其能在消費級硬件上運行。

模型特點

高質量語音合成

生成24kHz單聲道高質量音頻，針對對話自然度進行微調

情感表達支持

支持情感標籤（如笑聲、嘆息等），增強語音表現力

高效推理

8位量化版本，優化了效率，可在消費級硬件上運行

CUDA加速優化

針對RTX顯卡的CUDA加速優化

模型能力

文本轉語音

情感語音合成

印地語語音生成

使用案例

語音合成

有聲讀物生成

將印地語文本轉換為自然語音，用於有聲讀物製作

生成富有表現力的高質量音頻

語音助手

為印地語語音助手提供自然語音輸出

支持情感表達，提升用戶體驗

🚀 Orpheus-3b-FT-Q8_0

Orpheus-3b-FT-Q8_0 是一個高性能的文本轉語音模型，它經過微調，能夠實現自然、富有情感的語音合成。本項目是 canopylabs/3b-hi-ft-research_release 的 8 位量化版本，在保證高效推理的同時，仍能輸出高質量的語音。

🚀 快速開始

從 lex-au 的 Orpheus-FASTAPI 集合下載此量化模型。
將模型加載到你首選的大語言模型（LLM）推理服務器中並啟動服務器。
克隆 Orpheus-FastAPI 倉庫：

git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI

通過設置 ORPHEUS_API_URL 環境變量，配置 FastAPI 服務器以連接到你的推理服務器。
遵循倉庫 README 中的完整安裝和設置說明。

✨ 主要特性

具備 1 種獨特的語音選項，且各有不同特點。
支持如笑聲、嘆息聲等情感標籤。
針對 RTX GPU 上的 CUDA 加速進行了優化。
可生成高質量的 24kHz 單聲道音頻。
針對對話自然度進行了微調。

📦 安裝指南

此量化模型可以加載到以下任何 LLM 推理服務器中：

GPUStack - GPU 優化的 LLM 推理服務器（推薦） - 支持局域網/廣域網張量拆分並行化。
LM Studio - 加載 GGUF 模型並啟動本地服務器。
llama.cpp server - 使用適當的模型參數運行。
任何兼容的 OpenAI API 服務器。

💻 使用示例

基礎用法

該模型旨在與連接到 Orpheus-FastAPI 前端的 LLM 推理服務器一起使用，該前端同時提供 Web 界面和 OpenAI 兼容的 API 端點。

可用語音

模型支持 1 種語音：

ऋतिका：女性，印地語，富有表現力。

情感標籤

你可以通過插入標籤為語音添加表現力：

<laugh>、<chuckle>：用於笑聲。
<sigh>：用於嘆息聲。
<cough>、<sniffle>：用於輕微的中斷聲。
<groan>、<yawn>、<gasp>：用於額外的情感表達。

📚 詳細文檔

模型描述

Orpheus-3b-FT-Q8_0 是一個擁有約 30 億參數的文本轉語音模型，它可以將文本輸入轉換為自然的語音，支持多種語音和情感表達。該模型已被量化為 8 位（Q8_0）格式，以實現高效推理，使其能夠在消費級硬件上運行。

技術規格

屬性	詳情
模型類型	專門的令牌到音頻序列模型
參數數量	約 30 億
量化方式	8 位（GGUF Q8_0 格式）
音頻採樣率	24kHz
輸入	帶有可選語音選擇和情感標籤的文本
輸出	高質量的 WAV 音頻
語言	印地語
硬件要求	支持 CUDA 的 GPU（推薦：RTX 系列）
集成方式	外部 LLM 推理服務器 + Orpheus-FastAPI 前端

侷限性

目前僅支持英文文本。
在支持 CUDA 的 GPU 上可實現最佳性能。
生成速度取決於 GPU 性能。

🔧 技術細節

架構：專門的令牌到音頻序列模型。
參數：約 30 億。
量化：8 位（GGUF Q8_0 格式）。
音頻採樣率：24kHz。
輸入：帶有可選語音選擇和情感標籤的文本。
輸出：高質量的 WAV 音頻。
語言：印地語。
硬件要求：支持 CUDA 的 GPU（推薦：RTX 系列）。
集成方法：外部 LLM 推理服務器 + Orpheus-FastAPI 前端。

📄 許可證

此模型遵循 Apache 許可證 2.0。

🔖 引用與歸屬

原始的 Orpheus 模型由 Canopy Labs 創建。本倉庫包含一個針對 Orpheus-FastAPI 服務器優化的量化版本。

如果您在研究或應用中使用此量化模型，請引用：

@misc{orpheus-tts-2025,
  author = {Canopy Labs},
  title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}

@misc{orpheus-quantised-2025,
  author = {Lex-au},
  title = {Orpheus-3b-FT-Q8_0: Quantised TTS Model with FastAPI Server},
  note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q8_0.gguf}}
}