オルフェウスオープンソース音声大規模モデル - 無料でデプロイし、高品質で共感を持った音声を生成

ホーム

Orpheus

atharva27によって開発

Llamaアーキテクチャに基づく最先端の音声大規模モデルで、高品質で共感性のあるテキストから音声への生成に特化

音声合成

Transformers

英語オープンソースライセンス:Apache-2.0 #ゼロショット音声クローニング #感情制御可能な音声合成 #低遅延ストリーミングTTS

ダウンロード数 20

リリース時間 : 5/3/2025

モデル概要

3BパラメータのTTSモデルで、人間レベルの音声合成を実現。明瞭さ、表現力、リアルタイムストリーミング処理に優れる

モデル特徴

擬人化音声

自然なイントネーション、感情、リズムが現在のクローズドソース最適モデルを超越

ゼロショット音声クローニング

事前学習なしで音声をクローン可能

制御可能な感情とイントネーション

簡単なラベルで音声の感情的特徴を制御

低遅延

リアルタイムアプリケーションで約200ミリ秒のストリーミング遅延、入力ストリーミング処理時には100ミリ秒まで低減可能

モデル能力

高品質音声合成

感情制御音声生成

リアルタイムストリーミング処理

音声クローニング

使用事例

音声合成

オーディオブック生成

感情豊かなオーディオブックコンテンツを生成

自然で滑らかな音声出力

仮想アシスタント

仮想アシスタントにより自然な音声インタラクションを提供

擬人化された音声応答

リアルタイムアプリケーション

リアルタイム音声アナウンス

低遅延が求められるリアルタイム音声アナウンスシーン向け

200ミリ秒以下のストリーミング遅延

🚀 Orpheus 3B 0.1 Finetuned

Orpheus TTSは、Llamaベースの最先端のSpeech-LLMで、高品質かつ共感的なテキスト読み上げ生成を目的として設計されています。このモデルは、人間レベルの音声合成を実現するようにファインチューニングされており、卓越した明瞭性、表現力、リアルタイムストリーミング性能を達成しています。

🚀 クイックスタート

2025年3月18日 – 追加のファインチューニングを施した3B Orpheus TTSモデルをリリースします。コードはGitHubで入手可能です: CanopyAI/Orpheus-TTS

✨ 主な機能

モデルの能力

人間に近い音声：自然なイントネーション、感情、リズムを備え、最先端の閉ソースモデルを上回る品質です。
ゼロショット音声クローニング：事前のファインチューニングなしで音声をクローニングできます。
感情とイントネーションの制御：簡単なタグで音声と感情の特性を制御できます。
低遅延：リアルタイムアプリケーション向けに約200msのストリーミング遅延を実現し、入力ストリーミングを使用すると約100msまで低減できます。

モデルのソース

GitHubリポジトリ: https://github.com/canopyai/Orpheus-TTS
ブログ記事: https://canopylabs.ai/model-releases
Colab推論ノートブック: ノートブックのリンク

💻 使用例

ファインチューニングされたモデルで簡単に推論を実行する方法については、Colab (Colabのリンク) またはGitHub (GitHubのリンク) を参照してください。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📚 ドキュメント

モデルの誤用

同意なしのなりすまし、誤情報や欺瞞行為（偽ニュースや詐欺電話など）、または違法もしくは有害な活動には、このモデルを使用しないでください。このモデルを使用することで、すべての適用される法律と倫理ガイドラインに従うことに同意するものとします。当社は、いかなる使用に対しても責任を負いません。

モデルの詳細情報

プロパティ	詳細
ライブラリ名	transformers
パイプラインタグ	text-to-speech
ベースモデル	meta-llama/Llama-3.2-3B-Instruct、canopylabs/orpheus-3b-0.1-pretrained
ライセンス	apache-2.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご