Dia-1.6Bオープンソーステキスト読み上げモデル - リアルな会話を無料で生成、感情や語調の制御に対応

ホーム

Dia 1.6B

nari-labsによって開発

DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。

音声合成

Safetensors

英語オープンソースライセンス:Apache-2.0 #対話型音声合成 #感情・イントネーション制御 #非言語コミュニケーション生成

ダウンロード数 80.28k

リリース時間 : 4/20/2025

モデル概要

Diaはオープンソースのテキスト対話モデルで、音声条件付けによる感情・イントネーション制御をサポートし、笑い声や咳などの非言語コミュニケーション内容も生成できます。

モデル特徴

高度にリアルな対話生成

テキストから直接高度にリアルな対話を生成でき、感情やイントネーションの制御をサポートします。

非言語コミュニケーション生成

笑い声、咳、喉の鳴らし音などの非言語コミュニケーション内容を生成できます。

音声クローニング

音声クローニング機能をサポートし、クローン対象の音声をアップロードすることで声の複製が可能です。

オープンソースの重み

モデルの重みは完全にオープンソースで、ユーザーはスクリプトと音声を完全に制御できます。

モデル能力

テキスト音声合成

感情・イントネーション制御

非言語コミュニケーション生成

音声クローニング

使用事例

対話生成

Dia紹介

Diaモデルを紹介する対話内容を生成

高度にリアルな対話効果

緊急対応

緊急時の対話内容を生成

感情豊かな音声出力

音声クローニング

カスタム音声

音声をアップロードして特定の声をクローン

クローン音声に似た音声を生成

🚀 Dia

DiaはNari Labsによって作成された16億パラメータのテキスト読み上げモデルです。このモデルは、テキストから非常にリアルな会話音声を直接生成し、音声の感情やトーンをコントロールすることができます。また、笑い声や咳などの非言語的な表現も生成することができます。

🚀 クイックスタート

これにより、操作可能なGradio UIが開きます。

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

または、uvが事前にインストールされていない場合は、以下のコマンドを実行します。

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

なお、このモデルは特定の声でファインチューニングされていないため、モデルを実行するたびに異なる声が出力されます。音声プロンプトを追加するか、シードを固定することで、話者の一貫性を維持することができます。

✨ 主な機能

[S1]と[S2]タグを使用して会話を生成します。
(laughs)、(coughs)などの非言語的な表現を生成します。
- 以下の非言語的なタグは認識されますが、予期しない出力になる場合があります。
- (laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
音声クローニング機能があります。詳細については、example/voice_clone.pyを参照してください。
- Hugging Faceのスペースでは、クローニングしたい音声をアップロードし、スクリプトの前にその文字起こしを配置することができます。文字起こしが必要な形式に従っていることを確認してください。モデルはスクリプトの内容のみを出力します。

💻 使用例

基本的な使用法

import soundfile as sf

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."

output = model.generate(text)

sf.write("simple.mp3", output, 44100)

PyPIパッケージと動作するCLIツールは間もなく利用可能になります。

🔧 技術詳細

ハードウェアと推論速度

DiaはGPU（pytorch 2.0+、CUDA 12.6）でのみテストされています。CPUサポートは間もなく追加されます。最初の実行では、Descript Audio Codecもダウンロードする必要があるため、時間がかかります。

エンタープライズGPUでは、Diaはリアルタイムで音声を生成することができます。古いGPUでは、推論時間が遅くなります。参考までに、A4000 GPUでは、Diaは約40トークン/秒（86トークンが1秒の音声に相当）を生成します。torch.compileを使用すると、対応するGPUで速度が向上します。

Diaの完全版を実行するには、約10GBのVRAMが必要です。将来的には量子化バージョンを追加する予定です。

ハードウェアが利用できない場合、またはより大きなバージョンのモデルを試したい場合は、こちらのウェイトリストに登録してください。