开源quantized-dia-1.6B-int8文本转语音模型 - 免费生成逼真对话与非语言表达

首页

Quantized Dia 1.6B Int8

由 RobAgrees 开发

Dia是一款16亿参数的开源文本转语音模型，支持生成高度逼真的对话和非语言表达

语音合成

Safetensors

支持多种语言开源协议:Apache-2.0 #动态对话生成 #情感语调控制 #非语言表达合成

下载量 69

发布时间 : 4/28/2025

模型简介

Dia是由Nari Labs开发的文本转语音模型，可直接从文本生成高度逼真的对话，支持通过音频输入控制情感和语调，还能生成非语言表达如笑声、咳嗽等。

模型特点

动态int8量化

采用动态量化技术实现更轻量级部署和更快推理，推理速度提升约20%

多说话人对话生成

通过[S1]和[S2]标签生成多角色对话

非语言表达支持

支持生成笑声、咳嗽、清嗓等非语言表达

语音克隆功能

支持通过示例代码实现语音克隆

模型能力

文本转语音

多说话人对话生成

非语言表达生成

语音克隆

使用案例

对话系统

虚拟助手

为虚拟助手生成自然对话语音

生成高度逼真的对话效果

游戏NPC

为游戏角色生成动态语音对话

支持多角色交互和情感表达

内容创作

有声内容制作

为播客、有声书等生成对话内容

可生成包含非语言表达的自然对话

🚀 量化版Dia 1.6B (INT8)

这是 nari-labs/Dia-1.6B 的动态int8量化版本。它采用动态量化技术，以实现更轻量级的部署和更快的推理速度。

原始模型：float16，约6.4GB
量化模型：int8动态，约6.4GB，推理速度快约20%

🚀 快速开始

这将打开一个Gradio用户界面，你可以在上面进行操作。

git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia && uv run app.py

或者，如果你没有预先安装 uv：

git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

此模型由 RobertAgee 和 RobAgrees 上传。

在Google Colab中使用PyTorch动态量化自动进行量化。

原README内容

Dia是由Nari Labs创建的一个具有16亿参数的文本转语音模型。它使用 PytorchModelHubMixin 集成推送到Hugging Face Hub。

Dia 可以直接从文本转录生成高度逼真的对话。你可以根据音频对输出进行条件控制，从而实现对情感和语调的控制。该模型还可以生成诸如笑声、咳嗽声、清嗓子声等非语言交流内容。

为了加速研究，我们提供了预训练模型检查点和推理代码的访问权限。模型权重托管在 Hugging Face 上。目前，该模型仅支持英文生成。

我们还提供了一个演示页面，用于将我们的模型与 ElevenLabs Studio 和 Sesame CSM-1B 进行比较。

(更新) 我们有一个ZeroGPU Space正在运行！现在就可以点击这里进行尝试。感谢Hugging Face团队的支持 :)
加入我们的 Discord服务器，获取社区支持并了解新功能。
体验更大版本的Dia：生成有趣的对话、重新混合内容并与朋友分享。点击加入等待列表以获得早期访问权限。

快速开始

这将打开一个Gradio用户界面，你可以在上面进行操作。

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

或者，如果你没有预先安装 uv：

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

请注意，该模型没有针对特定语音进行微调。因此，每次运行模型时，你会得到不同的语音。你可以通过添加音频提示（很快会有使用指南 - 目前可以在Gradio上的第二个示例中尝试）或固定随机种子来保持说话者的一致性。

✨ 主要特性

通过 [S1] 和 [S2] 标签生成对话。
生成非语言内容，如 (laughs)、(coughs) 等。
- 以下非语言标签会被识别，但可能会产生意外输出。
- (laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
语音克隆。更多信息请参阅 example/voice_clone.py。
- 在Hugging Face空间中，你可以上传想要克隆的音频，并在脚本前放置其转录文本。确保转录文本符合所需格式。然后，模型将仅输出脚本内容。

💻 使用示例

作为Python库使用

import soundfile as sf

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."

output = model.generate(text)

sf.write("simple.mp3", output, 44100)

PyPI包和可用的命令行工具将很快推出。