オルフェウス-3b-0.1-ftオープンソースのテキスト音声変換モデル

ホーム

Orpheus 3b 0.1 Ft

chutesaiによって開発

Llamaアーキテクチャに基づく高品質なテキスト音声変換モデル、感情制御と音色クローニングをサポート

音声合成

Transformers

英語オープンソースライセンス:Apache-2.0 #擬似音声合成 #ゼロショット音色クローニング #感情制御可能TTS

ダウンロード数 2,686

リリース時間 : 3/24/2025

モデル概要

Orpheus TTSはLlamaアーキテクチャに基づく音声大規模モデルで、ファインチューニングにより人間レベルの音声合成効果を実現し、明瞭度、表現力、リアルタイムストリーミング処理において卓越した性能を発揮します。

モデル特徴

擬似音声

自然なイントネーション、感情とリズム表現が現在のクローズドソース最適モデルを超越

ゼロショット音色クローニング

事前トレーニングなしでターゲット音色をクローン可能

制御可能な感情イントネーション

簡単なラベルで音声の感情的特徴を調整

低遅延処理

リアルタイムシナリオで約200msのストリーミング遅延、入力ストリームと組み合わせると100msまで低減可能

モデル能力

高品質音声合成

感情音声生成

音色クローニング

ストリーミング音声出力

使用事例

音声インタラクション

仮想アシスタント

仮想アシスタントに自然で滑らかな音声出力を提供

ユーザー体験とインタラクションの自然さを向上

オーディオブック

表現力豊かなオーディオブックを自動生成

コンテンツ制作コストを削減

支援技術

音声支援

視覚障害者向けに高品質な音声出力を提供

支援技術の可用性を向上

🚀 Orpheus 3B 0.1 Finetuned

Orpheus TTSは、Llamaベースの最先端のSpeech-LLMで、高品質で共感的なテキスト読み上げ生成を目的として設計されています。このモデルは、人間レベルの音声合成を実現するためにファインチューニングされており、卓越した明瞭さ、表現力、リアルタイムストリーミング性能を達成しています。

🚀 クイックスタート

2025年3月18日 – 追加のファインチューニングを施した3B Orpheus TTSモデルをリリースします。コードはGitHubで入手可能です: CanopyAI/Orpheus-TTS

✨ 主な機能

モデルの能力

人間に近い音声: SOTAの閉ソースモデルを上回る自然なイントネーション、感情、リズム
ゼロショット音声クローニング: 事前のファインチューニングなしで音声をクローニング
感情とイントネーションの制御: 簡単なタグで音声と感情の特性を制御
低レイテンシ: リアルタイムアプリケーション向けの約200msのストリーミングレイテンシ。入力ストリーミングを使用すると約100msに低減可能

モデルのソース

GitHubリポジトリ: https://github.com/canopyai/Orpheus-TTS
ブログ記事: https://canopylabs.ai/model-releases
Colab推論ノートブック: ノートブックのリンク

💻 使用例

ファインチューニングされたモデルで簡単に推論を実行する方法については、Colab（Colabのリンク）またはGitHub（GitHubのリンク）を参照してください。

📚 ドキュメント

モデルの誤用について

同意を得ずに偽装する目的、誤情報や欺瞞（偽ニュースや詐欺電話など）、または違法もしくは有害な活動にモデルを使用しないでください。このモデルを使用することにより、すべての適用される法律と倫理ガイドラインに従うことに同意するものとします。当社は、いかなる使用についても責任を負いません。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

属性	详情
モデルタイプ	text-to-speech
ベースモデル	meta-llama/Llama-3.2-3B-Instruct、canopylabs/orpheus-3b-0.1-pretrained
ライセンス	apache-2.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご