orpheus_3b_0.1_GGUF開源語音大模型 - 免費實現高質量文本轉語音及情感控制

首頁

Orpheus 3b 0.1 GGUF

由Prince-1開發

基於Llama架構的語音大模型，專為高質量文本轉語音設計，支持情感控制和即時流式傳輸

語音合成支持多種語言開源協議:Apache-2.0 #零樣本音色克隆 #情感可控語音合成 #即時流式TTS

下載量 423

發布時間 : 4/23/2025

模型概述

Orpheus TTS是基於Llama架構的語音合成模型，通過Unsloth框架和TRL庫實現高效訓練，可生成擬真語音並支持聲音克隆功能

模型特點

擬真語音合成

生成自然語調、情感和節奏，超越當前閉源最優模型

零樣本聲音克隆

無需預訓練即可克隆特定音色

情感語調引導

通過簡單標籤控制語音情感特徵

低延遲流式處理

即時應用場景下約200ms流式延遲，輸入流式傳輸時可降至100ms

模型能力

高質量語音合成

音色克隆

情感語音控制

即時流式傳輸

使用案例

語音交互應用

虛擬助手

為虛擬助手生成自然語音響應

實現人類級語音交互體驗

有聲內容創作

自動生成有聲讀物或播客內容

大幅降低內容製作成本

輔助技術

語音輔助設備

為視障人士提供高質量語音輸出

提升輔助設備使用體驗

🚀 上傳的模型

本項目上傳了一個經過微調的模型，該模型基於特定的基礎模型進行訓練，具備高效訓練和高質量語音合成等特點。

模型信息

屬性	詳情
基礎模型	unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit
標籤	text-generation-inference、transformers、unsloth、llama、trl、tts、text-to-speech、gguf、llama-cpp-python
許可證	apache-2.0
庫名稱	transformers
語言	en
數據集	MrDragonFox/Elise

模型微調信息

微調者：Prince-1
許可證：apache-2.0
基礎微調模型：unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit

這個Llama模型使用 Unsloth 和Huggingface的TRL庫進行訓練，速度提升了2倍。

Orpheus TTS是一款基於Llama的先進語音大語言模型（Speech-LLM），專為高質量、富有同理心的文本轉語音生成而設計。該模型經過微調，能夠實現接近人類水平的語音合成，在清晰度、表現力和即時流式傳輸性能方面表現出色。

✨ 主要特性

模型能力

類人語音：具有自然的語調、情感和節奏，優於當前最先進的閉源模型。
零樣本語音克隆：無需事先微調即可克隆語音。
情感和語調引導：通過簡單的標籤控制語音和情感特徵。
低延遲：即時應用的流式傳輸延遲約為200ms，使用輸入流式傳輸可將延遲降低至約100ms。

模型資源

GitHub倉庫：https://github.com/canopyai/Orpheus-TTS
博客文章：https://canopylabs.ai/model-releases
Colab推理筆記本：notebook link

🔧 技術細節

量化

模型已轉換為 GGUF 格式。

可選擇的 quantization_method 如下：

not_quantized：推薦。轉換速度快，推理速度慢，文件大。
fast_quantized：推薦。轉換速度快，推理效果一般，文件大小適中。
quantized：推薦。轉換速度慢，推理速度快，文件小。
f32：不推薦。保留100%的精度，但速度極慢且佔用大量內存。
f16：轉換速度最快，保留100%的精度，但速度慢且佔用大量內存。
q8_0：轉換速度快，資源使用高，但通常可以接受。
q4_k_m：推薦。對 attention.wv 和 feed_forward.w2 張量的一半使用Q6_K，其餘使用Q4_K。
q5_k_m：推薦。對 attention.wv 和 feed_forward.w2 張量的一半使用Q6_K，其餘使用Q5_K。
q2_k：對 attention.vw 和 feed_forward.w2 張量使用Q4_K，對其他張量使用Q2_K。
q3_k_l：對 attention.wv、attention.wo 和 feed_forward.w2 張量使用Q5_K，其餘使用Q3_K。
q3_k_m：對 attention.wv、attention.wo 和 feed_forward.w2 張量使用Q4_K，其餘使用Q3_K。
q3_k_s：對所有張量使用Q3_K。
q4_0：原始的4位量化方法。
q4_1：比q4_0精度高，但不如q5_0。不過，推理速度比q5模型快。
q4_k_s：對所有張量使用Q4_K。
q4_k：q4_k_m的別名。
q5_k：q5_k_m的別名。
q5_0：精度更高，資源使用更多，推理速度更慢。
q5_1：精度更高，資源使用更多，推理速度更慢。
q5_k_s：對所有張量使用Q5_K。
q6_k：對所有張量使用Q8_K。