I

Indri 0.1 350m Tts

11mlabsによって開発
IndriはTransformerアーキテクチャに基づく新規・超小型・軽量なTTSモデルで、英語とヒンディー語のテキスト音声変換タスクをサポートします。
ダウンロード数 1,088
リリース時間 : 11/20/2024

モデル概要

このモデルは音声をトークンとしてモデル化し、高品質な音声を生成するとともに話者スタイルの一貫性を維持します。音声クローンとコード混合テキスト入力をサポートしています。

モデル特徴

小型軽量
GPT-2中型アーキテクチャベースで、小型ながら強力な性能
超高速推論
RTX6000Ada GPU上で300 toks/sの生成速度、初回トークン時間20ms未満
音声クローン
短いプロンプト(<5秒)に基づく話者スタイルクローンをサポート
多言語サポート
英語とヒンディー語のコード混合入力をサポート
バッチ処理
RTX6000Ada上で約300シーケンスのバッチ処理をサポート

モデル能力

テキスト音声変換
音声クローン
多言語音声合成
バッチ音声生成

使用事例

コンテンツ制作
オーディオブック生成
電子書籍向けに高品質な音声版を自動生成
複数の話者スタイル選択肢を提供
教育コンテンツ
教材向けに多言語音声コンテンツを生成
英語とヒンディー語混合コンテンツをサポート
ビジネスアプリケーション
音声アシスタント
アプリケーションに自然な音声出力を統合
低遅延応答
広告コンテンツ
異なるスタイルの広告音声を迅速生成
複数の話者スタイルをサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase