L

Llama OuteTTS 1.0 1B GPTQ 8bit

adriabama06によって開発
OuteTTS 1.0は1Bパラメータのテキスト音声合成モデルで、多言語音声合成と音声クローニングをサポートします
ダウンロード数 15
リリース時間 : 4/7/2025

モデル概要

Llama3.2アーキテクチャに基づく音声合成モデルで、DACエンコーダーによる高忠実度音声再構築を実現し、17の主要言語のテキスト音声変換と音声クローニング機能をサポートします

モデル特徴

多言語ネイティブサポート
23言語のテキスト入力を直接サポートし、ローマ字変換などの前処理が不要
効率的な音声クローニング
わずか10秒の参照音声で正確な声紋クローニングを生成
インテリジェントテキストアライメント
日本語/中国語など明確な境界がない言語の単語アライメントを自動処理
DACオーディオエンコーダー
IBM Researchの高忠実度デュアルコードブックアーキテクチャを採用し、音質を大幅に向上

モデル能力

テキスト音声合成
クロスランゲージ音声変換
音声特徴クローニング
感情音声生成
長文音声合成(最大42秒)

使用事例

支援技術
アクセシブルリーディング
視覚障害ユーザーのためにテキストコンテンツを音声に変換
多言語自然音声出力をサポート
コンテンツ制作
音声コンテンツ制作
ポッドキャスト/ビデオナレーションを迅速生成
特定のナレーターの声をクローン可能
教育技術
言語学習ツール
多言語発音デモを生成
23言語のネイティブ発音をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase