orpheus-3b-0.1-ftオープンソース音声大規模モデル - 高品質で共感的なテキスト読み上げを無料で実現

ホーム

Orpheus 3b 0.1 Ft

audoによって開発

Llamaアーキテクチャに基づく最先端の音声大規模モデルで、高品質で共感力のあるテキスト読み上げ生成のために設計されています

音声合成

Transformers

英語オープンソースライセンス:Apache-2.0 #ゼロショット音声クローニング #感情制御可能な音声合成 #低遅延ストリーミングTTS

ダウンロード数 240

リリース時間 : 3/21/2025

モデル概要

Orpheus TTSはLlamaアーキテクチャに基づく音声合成モデルで、人間レベルの音声合成を実現するためにファインチューニングされており、明瞭さ、表現力、リアルタイムストリーミング処理において卓越した性能を発揮します。

モデル特徴

リアルな音声

自然なイントネーション、感情、リズムが既存のクローズドソースSOTAモデルを凌駕

ゼロショット音声クローニング

事前学習なしで音声をクローン可能

制御可能な感情とイントネーション

シンプルなラベルで音声の感情的特徴を制御

低遅延

リアルタイムアプリケーションで約200msのストリーミング遅延、入力ストリーミング処理時には約100msまで低減可能

モデル能力

高品質音声合成

音声クローニング

感情制御音声生成

リアルタイムストリーミング音声処理

使用事例

音声合成

オーディオブック生成

電子書籍に高品質な音声を自動生成

自然で滑らかな朗読効果

バーチャルアシスタント音声

表現力豊かな音声をバーチャルアシスタントに提供

より自然なインタラクション体験

音声クローニング

パーソナライズド音声サービス

少量のサンプルで特定の音声をクローン

大規模なトレーニングなしでパーソナライズド音声を実現

🚀 Orpheus 3B 0.1 Finetuned

Orpheus TTSは、Llamaベースの最先端の音声LLMで、高品質で共感的なテキスト読み上げ生成を目的として設計されています。このモデルは、人間レベルの音声合成を実現するためにファインチューニングされており、卓越した明瞭さ、表現力、リアルタイムストリーミング性能を達成しています。

🚀 クイックスタート

2025年3月18日 – 追加のファインチューニングを行った3BのOrpheus TTSモデルをリリースします。コードはGitHubで入手できます: CanopyAI/Orpheus-TTS

✨ 主な機能

モデルの能力

人間に近い音声：最先端の閉ソースモデルを上回る自然な抑揚、感情、リズム
ゼロショット音声クローニング：事前のファインチューニングなしで音声をクローンできます
感情と抑揚の制御：簡単なタグで音声と感情の特性を制御できます
低遅延：リアルタイムアプリケーションで約200msのストリーミング遅延。入力ストリーミングで約100msまで低減可能

モデルのソース

GitHubリポジトリ: https://github.com/canopyai/Orpheus-TTS
ブログ記事: https://canopylabs.ai/model-releases
Colab推論ノートブック: ノートブックのリンク

💻 使用例

ファインチューニング済みモデルで簡単に推論を実行する方法については、Colab（Colabのリンク）またはGitHub（GitHubのリンク）をご確認ください。

📚 ドキュメント

モデルの誤用について

同意を得ずに偽装する、誤情報や詐欺（偽ニュースや詐欺電話など）、または違法もしくは有害な活動にこのモデルを使用しないでください。このモデルを使用することで、すべての適用される法律と倫理ガイドラインに従うことに同意するものとします。当社は、いかなる使用に対しても責任を負いません。

📄 ライセンス

Apache-2.0ライセンスの下で提供されています。

モデルの詳細情報

属性	详情
ライブラリ名	transformers
パイプラインタグ	テキスト読み上げ
ベースモデル	meta-llama/Llama-3.2-3B-Instruct、canopylabs/orpheus-3b-0.1-pretrained
ライセンス	Apache-2.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご