orpheus_3b_0.1_ft_16bitオープンソース音声大規模モデル - 高品質の共感的なテキスト音声を無料で生成

ホーム

Orpheus 3b 0.1 Ft 16bit

Prince-1によって開発

アルパカモデルを基盤とした最先端の音声大規模言語モデルで、高品質で共感性のあるテキストから音声への生成に特化

音声合成

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ゼロショット音声クローン #感情制御可能な音声合成 #低遅延ストリーミングTTS

ダウンロード数 60

リリース時間 : 5/1/2025

モデル概要

このモデルはUnslothとHuggingfaceのTRLライブラリにより2倍速のトレーニングを実現、擬人化音声を生成可能。ゼロショット音声クローンと感情制御をサポートし、リアルタイム音声合成シナリオに適しています。

モデル特徴

擬人化音声合成

自然な抑揚、感情、リズムを備えた音声を生成可能で、既存のクローズドソースモデルを凌駕

ゼロショット音声クローン

事前トレーニングなしで特定の音声特徴をクローン可能

感情制御

シンプルなラベルで音声の感情的特徴を制御

低遅延処理

リアルタイムアプリケーションで約200ミリ秒のストリーミング遅延、入力ストリーミング処理では100ミリ秒まで低減可能

モデル能力

高品質テキストから音声へ

音声特徴クローン

感情音声合成

リアルタイムストリーミング音声生成

使用事例

音声合成アプリケーション

バーチャルアシスタント音声

バーチャルアシスタント向けに自然で感情豊かな音声を生成

ユーザー体験とインタラクション品質の向上

オーディオブック制作

テキストを表現力豊かな音声に自動変換

制作コスト削減と生産性向上

リアルタイム音声インタラクションシステム

低遅延音声フィードバックが必要なアプリケーション向け

ほぼリアルタイムの音声インタラクション体験を実現

🚀 Orpheus TTS モデル

Orpheus TTSは、高品質で共感的なテキスト読み上げ生成のために設計された、最先端のLlamaベースの音声LLMです。このモデルは、人間レベルの音声合成を実現するように微調整されており、卓越した明瞭さ、表現力、リアルタイムストリーミング性能を達成しています。

🚀 クイックスタート

このLlamaモデルは、UnslothとHuggingfaceのTRLライブラリを使用して、2倍高速に学習されました。

微調整済みモデルで簡単に推論を実行する方法については、Colab（Colabへのリンク）またはGitHub（GitHubへのリンク）を参照してください。

✨ 主な機能

モデルの能力

人間に近い音声：SOTAの閉ソースモデルを上回る自然なイントネーション、感情、リズム
ゼロショット音声クローニング：事前の微調整なしで音声をクローニング
感情とイントネーションの制御：簡単なタグで音声と感情の特性を制御
低遅延：リアルタイムアプリケーション向けの約200msのストリーミング遅延。入力ストリーミングで約100msに低減可能

モデルのソース

GitHubリポジトリ：https://github.com/canopyai/Orpheus-TTS
ブログ記事：https://canopylabs.ai/model-releases
Colab推論ノートブック：ノートブックのリンク

📄 ライセンス

属性	详情
モデルタイプ	Llamaベースの音声LLM
学習データ	MrDragonFox/Elise
微調整者	Prince - 1
ライセンス	apache - 2.0
微調整元のモデル	unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit

⚠️ 重要提示

同意を得ずに偽装するため、誤情報や欺瞞（虚偽のニュースや詐欺電話を含む）、または違法もしくは有害な活動にこのモデルを使用しないでください。このモデルを使用することで、すべての適用される法律と倫理ガイドラインに従うことに同意するものとします。当方は、いかなる使用に対しても責任を負いません。