Dia-1.6B开源文本转语音模型 - 免费生成逼真对话，支持情感语调控制

首页

Dia 1.6B

由 nari-labs 开发

Dia是由Nari实验室开发的16亿参数文本转语音模型，能够直接从文本生成高度逼真的对话，支持情感和语调控制，并能生成非语言交流内容。

语音合成

Safetensors

英语开源协议:Apache-2.0 #对话式语音合成 #情感语调控制 #非语言交流生成

下载量 80.28k

发布时间 : 4/20/2025

模型简介

Dia是一款开源权重的文本对话模型，支持通过音频条件化输出实现情感和语调控制，并能生成非语言交流内容如笑声、咳嗽等。

模型特点

高度逼真的对话生成

能够直接从文本生成高度逼真的对话，支持情感和语调控制。

非语言交流生成

能生成非语言交流内容，如笑声、咳嗽、清嗓等。

语音克隆

支持语音克隆功能，可通过上传待克隆音频实现声音复制。

开源权重

模型权重完全开源，用户可完全控制脚本和语音。

模型能力

文本转语音

情感和语调控制

非语言交流生成

语音克隆

使用案例

对话生成

Dia介绍

生成介绍Dia模型的对话内容

高度逼真的对话效果

紧急预案

生成紧急情况下的对话内容

情感丰富的语音输出

语音克隆

自定义语音

通过上传音频克隆特定声音

生成与克隆声音相似的语音

🚀 Dia - 文本转语音模型

Dia是由Nari Labs创建的一个拥有16亿参数的文本转语音模型。它能够直接从文本转录中生成高度逼真的对话，还可根据音频条件控制输出的情感和语调，甚至能生成笑声、咳嗽声等非语言交流内容。

🚀 快速开始

此操作将打开一个Gradio用户界面供你使用。

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

若你尚未预先安装uv，可按以下步骤操作：

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

请注意，该模型未针对特定语音进行微调，因此每次运行模型时可能会得到不同的语音。你可以通过添加音频提示（相关指南即将推出，目前可在Gradio上尝试第二个示例）或固定随机种子来保持说话者的一致性。

✨ 主要特性

对话生成：通过[S1]和[S2]标签生成对话。
非语言交流生成：能够生成如(laughs)、(coughs)等非语言交流内容。以下非语言标签会被识别，但可能会产生意外输出：(laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)。
语音克隆：详情请参考example/voice_clone.py。在Hugging Face空间中，你可以上传想要克隆的音频，并在脚本前放置其转录文本。请确保转录文本符合要求的格式，模型将仅输出脚本内容。

💻 使用示例

基础用法

import soundfile as sf

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."

output = model.generate(text)

sf.write("simple.mp3", output, 44100)

一个pypi包和一个可用的命令行工具即将推出。