orpheus_3b_0.1_ft_16bit開源語音大模型 - 免費生成高質量同理心文本語音

首頁

Orpheus 3b 0.1 Ft 16bit

由Prince-1開發

基於羊駝模型的尖端語音大語言模型，專為高質量、富有同理心的文本轉語音生成而設計

語音合成

Transformers

支持多種語言開源協議:Apache-2.0 #零樣本聲音克隆 #情感可控語音合成 #低延遲流式TTS

下載量 60

發布時間 : 5/1/2025

模型概述

該模型通過Unsloth和Huggingface的TRL庫實現了2倍速訓練，能夠生成擬人化語音，支持零樣本聲音克隆和情感控制，適用於即時語音合成場景。

模型特點

擬人化語音合成

能夠生成具有自然語調、情感和節奏的語音，超越現有閉源模型

零樣本聲音克隆

無需預訓練即可克隆特定聲音特徵

情感控制

通過簡單標籤控制語音的情感特徵

低延遲處理

即時應用場景下約200毫秒流式延遲，輸入流式處理可降至100毫秒

模型能力

高質量文本轉語音

聲音特徵克隆

情感語音合成

即時流式語音生成

使用案例

語音合成應用

虛擬助手語音

為虛擬助手生成自然、富有情感的語音

提升用戶體驗和互動質量

有聲讀物製作

自動將文本轉換為富有表現力的語音

降低製作成本，提高生產效率

即時語音交互系統

用於需要低延遲語音反饋的應用場景

實現接近即時的語音交互體驗

🚀 上傳的模型

本項目上傳了一個經過微調的模型，該模型基於Llama架構，在文本轉語音（TTS）任務上表現出色，能夠生成高質量、富有情感的語音。

模型基本信息

屬性	詳情
基礎模型	unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit
標籤	text-generation-inference、transformers、unsloth、llama、trl、tts、text-to-speech
許可證	apache-2.0
庫名稱	transformers
語言	en
數據集	MrDragonFox/Elise

模型微調信息

微調者：Prince-1
許可證：apache-2.0
基礎微調模型：unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit

這個Llama模型使用 Unsloth 和Huggingface的TRL庫進行訓練，訓練速度提升了2倍。

Orpheus TTS是一款基於Llama的先進語音大語言模型（Speech-LLM），專為高質量、富有同理心的文本轉語音生成而設計。該模型經過微調，能夠實現接近人類水平的語音合成，在清晰度、表現力和即時流式傳輸性能方面表現卓越。

✨ 主要特性

模型能力

類人語音：具有自然的語調、情感和節奏，優於當前最先進的閉源模型。
零樣本語音克隆：無需事先微調即可克隆語音。
引導式情感和語調：通過簡單的標籤控制語音和情感特徵。
低延遲：即時應用的流式傳輸延遲約為200ms，通過輸入流式傳輸可降低至約100ms。

模型來源

GitHub倉庫：https://github.com/canopyai/Orpheus-TTS
博客文章：https://canopylabs.ai/model-releases
Colab推理筆記本：筆記本鏈接

🚀 快速開始

查看我們的Colab筆記本（Colab鏈接）或GitHub倉庫（GitHub鏈接），瞭解如何在我們的微調模型上輕鬆進行推理。

📄 許可證

本模型採用apache-2.0許可證。

⚠️ 重要提示

請勿在未經同意的情況下使用我們的模型進行模仿、傳播錯誤信息或欺騙行為（包括虛假新聞或欺詐性電話），或進行任何非法或有害活動。使用此模型即表示您同意遵守所有適用的法律和道德準則。我們對任何使用行為不承擔責任。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫