オープンソースのオルフェウステキスト・トゥ・スピーチモデル

Orpheus 3b FT Q4 K M.gguf

lex-auによって開発

オルフェウスは高性能なテキスト読み上げモデルで、微調整により自然で感情豊かな音声合成が可能です。このリポジトリでは30億パラメータモデルの8ビット量子化バージョンをホストしており、高品質な出力を維持しながら実行効率を最適化しています。

音声合成複数言語対応オープンソースライセンス:Apache-2.0 #感情豊かな音声合成 #マルチボイスTTS #低リソース展開

ダウンロード数 736

リリース時間 : 3/24/2025

モデル概要

30億パラメータのテキスト読み上げモデルで、テキスト入力を自然な音声に変換し、複数の音色と感情表現をサポートします。このモデルは推論効率を向上させるため8ビット(Q4_K_M)形式に量子化されており、コンシューマー向けハードウェアで動作可能です。

モデル特徴

マルチボイスサポート

8種類の特徴的な音色を提供し、様々なシナリオのニーズに対応

感情表現

笑いやため息などの感情タグをサポートし、音声表現力を強化

効率的な推論

8ビット量子化(Q4_K_M)形式で実行効率を最適化、コンシューマー向けハードウェアに適応

高品質音声

24kHzモノラルの高品質音声を生成

会話最適化

会話の自然さに焦点を当てて微調整

モデル能力

テキスト読み上げ

マルチボイス音声合成

感情豊かな音声生成

高品質音声出力

使用事例

音声合成

オーディオブック生成

異なる音色を使用して電子書籍に自然な音声を生成

24kHz高品質音声出力

仮想アシスタント

感情豊かな音声インタラクション能力を仮想アシスタントに提供

笑いやため息などの感情表現をサポート

ゲームキャラクターボイス

ゲームキャラクターにダイナミックな音声を生成

8種類の選択可能な音色で様々なキャラクターのニーズに対応

🚀 Orpheus-3b-FT-Q4_K_M

Orpheusは、自然で感情豊かな音声合成のために微調整された高性能なテキスト読み上げモデルです。このリポジトリには、30億パラメータのモデルを8ビット量子化したバージョンがあり、高品質な出力を維持しながら効率化が図られています。

🚀 クイックスタート

この量子化モデルは、Orpheus-FastAPIフロントエンドに接続するLLM推論サーバーで使用するように設計されています。このフロントエンドは、Web UIとOpenAI互換のAPIエンドポイントの両方を提供します。

互換性のある推論サーバー

この量子化モデルは、以下のLLM推論サーバーのいずれにも読み込むことができます。

GPUStack - GPU最適化されたLLM推論サーバー（私のおすすめ） - LAN/WANテンソル分割並列化をサポート
LM Studio - GGUFモデルを読み込み、ローカルサーバーを起動
llama.cpp server - 適切なモデルパラメータで実行
互換性のあるOpenAI API互換サーバー

クイックスタート手順

この量子化モデルをlex-auのOrpheus-FASTAPIコレクションからダウンロードします。
好みの推論サーバーにモデルを読み込み、サーバーを起動します。
Orpheus-FastAPIリポジトリをクローンします。

git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI

ORPHEUS_API_URL環境変数を設定して、FastAPIサーバーを推論サーバーに接続するように構成します。
リポジトリのREADMEに記載されている完全なインストールとセットアップ手順に従います。

音声サンプル

異なる声と感情でモデルを実際に聞いてみましょう。

デフォルトの声のサンプル

Leah（幸せな表情）

Tara（悲しい表情）

Zac（熟考している表情）

✨ 主な機能

異なる特性を持つ8つの声のオプション
笑い声、ため息などの感情タグのサポート
RTX GPUでのCUDAアクセラレーションに最適化
高品質な24kHzモノラルオーディオを生成
会話の自然さのために微調整

📦 インストール

上述のクイックスタート手順を参照してください。

💻 使用例

基本的な使用法

このモデルは、Orpheus-FastAPIフロントエンドに接続するLLM推論サーバーとともに使用するように設計されています。以下は、基本的な使用手順です。

高度な使用法

感情タグを使用して、音声に表現力を加えることができます。例えば、<laugh>、<sigh>などのタグをテキストに挿入することができます。

📚 ドキュメント

利用可能な声

このモデルは、8つの異なる声をサポートしています。

声の名前	説明
`tara`	女性の、会話的で明瞭な声
`leah`	女性の、暖かく穏やかな声
`jess`	女性の、元気で若々しい声
`leo`	男性の、威厳があり深い声
`dan`	男性の、友好的でカジュアルな声
`mia`	女性の、プロフェッショナルで明瞭な声
`zac`	男性の、熱心でダイナミックな声
`zoe`	女性の、落ち着いて心地よい声

感情タグ

以下の感情タグを使用して、音声に表現力を加えることができます。

<laugh>、<chuckle>: 笑い声
<sigh>: ため息
<cough>、<sniffle>: 微妙な中断音
<groan>、<yawn>、<gasp>: 追加の感情表現

🔧 技術詳細

属性	詳情
モデルタイプ	特殊なトークンからオーディオシーケンスへのモデル
パラメータ	約30億
量子化	8ビット（GGUF Q4_K_M形式）
オーディオサンプルレート	24kHz
入力	オプションの声の選択と感情タグ付きのテキスト
出力	高品質なWAVオーディオ
言語	英語
ハードウェア要件	CUDA互換GPU（推奨: RTXシリーズ）
統合方法	外部のLLM推論サーバー + Orpheus-FastAPIフロントエンド

制限事項

現在は英語のテキストのみをサポート
CUDA互換GPUで最適なパフォーマンスを発揮
生成速度はGPUの性能に依存

📄 ライセンス

このモデルは、Apache License 2.0の下で利用可能です。

引用と帰属

元のOrpheusモデルはCanopy Labsによって作成されました。このリポジトリには、Orpheus-FastAPIサーバーでの使用に最適化された量子化バージョンが含まれています。

この量子化モデルを研究やアプリケーションで使用する場合は、以下を引用してください。

@misc{orpheus-tts-2025,
  author = {Canopy Labs},
  title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}

@misc{orpheus-quantised-2025,
  author = {Lex-au},
  title = {Orpheus-3b-FT-Q4_K_M: Quantised TTS Model with FastAPI Server},
  note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q4_K_M.gguf}}
}