D

Dia 1.6B Safetensors Fp16

thepushkarpによって開発
DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの調整および非言語表現の生成をサポートします。
ダウンロード数 289
リリース時間 : 4/23/2025

モデル概要

Diaはオープンソースのテキスト対話モデルで、笑い声や咳などの非言語表現を含むリアルな対話音声を生成でき、音声条件による出力効果の制御が可能です。

モデル特徴

対話生成
テキストから直接高度にリアルな対話を生成でき、複数話者タグをサポートします。
非言語表現生成
笑い声、咳、咳払いなどの非言語表現を生成できます。
感情・イントネーション制御
音声条件による出力制御で、感情やイントネーションを調整します。
音声クローン
音声クローン機能をサポートし、音声をアップロードしてクローンできます。

モデル能力

テキスト音声合成
対話生成
非言語表現生成
音声クローン

使用事例

音声合成
対話生成
複数話者の対話音声を生成し、アフレコやラジオドラマなどのシーンに適用できます。
高度にリアルな対話効果
音声クローン
特定話者の音声スタイルをクローンし、個性化された音声合成に使用します。
話者の一貫性を保持
エンターテインメント
リミックスコンテンツ生成
面白い対話コンテンツを生成し、エンターテインメントやSNS共有に使用します。
多様な音声効果
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase