Orpheus 3b 0.1 Ft 16bit
アルパカモデルを基盤とした最先端の音声大規模言語モデルで、高品質で共感性のあるテキストから音声への生成に特化
ダウンロード数 60
リリース時間 : 5/1/2025
モデル概要
このモデルはUnslothとHuggingfaceのTRLライブラリにより2倍速のトレーニングを実現、擬人化音声を生成可能。ゼロショット音声クローンと感情制御をサポートし、リアルタイム音声合成シナリオに適しています。
モデル特徴
擬人化音声合成
自然な抑揚、感情、リズムを備えた音声を生成可能で、既存のクローズドソースモデルを凌駕
ゼロショット音声クローン
事前トレーニングなしで特定の音声特徴をクローン可能
感情制御
シンプルなラベルで音声の感情的特徴を制御
低遅延処理
リアルタイムアプリケーションで約200ミリ秒のストリーミング遅延、入力ストリーミング処理では100ミリ秒まで低減可能
モデル能力
高品質テキストから音声へ
音声特徴クローン
感情音声合成
リアルタイムストリーミング音声生成
使用事例
音声合成アプリケーション
バーチャルアシスタント音声
バーチャルアシスタント向けに自然で感情豊かな音声を生成
ユーザー体験とインタラクション品質の向上
オーディオブック制作
テキストを表現力豊かな音声に自動変換
制作コスト削減と生産性向上
リアルタイム音声インタラクションシステム
低遅延音声フィードバックが必要なアプリケーション向け
ほぼリアルタイムの音声インタラクション体験を実現
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98