Dia-1.6B開源文本轉語音模型 - 免費生成逼真對話，支持情感語調控制

首頁

Dia 1.6B

由nari-labs開發

Dia是由Nari實驗室開發的16億參數文本轉語音模型，能夠直接從文本生成高度逼真的對話，支持情感和語調控制，並能生成非語言交流內容。

語音合成

Safetensors

英語開源協議:Apache-2.0 #對話式語音合成 #情感語調控制 #非語言交流生成

下載量 80.28k

發布時間 : 4/20/2025

模型概述

Dia是一款開源權重的文本對話模型，支持通過音頻條件化輸出實現情感和語調控制，並能生成非語言交流內容如笑聲、咳嗽等。

模型特點

高度逼真的對話生成

能夠直接從文本生成高度逼真的對話，支持情感和語調控制。

非語言交流生成

能生成非語言交流內容，如笑聲、咳嗽、清嗓等。

語音克隆

支持語音克隆功能，可通過上傳待克隆音頻實現聲音複製。

開源權重

模型權重完全開源，用戶可完全控制腳本和語音。

模型能力

文本轉語音

情感和語調控制

非語言交流生成

語音克隆

使用案例

對話生成

Dia介紹

生成介紹Dia模型的對話內容

高度逼真的對話效果

緊急預案

生成緊急情況下的對話內容

情感豐富的語音輸出

語音克隆

自定義語音

通過上傳音頻克隆特定聲音

生成與克隆聲音相似的語音

🚀 Dia - 文本轉語音模型

Dia是由Nari Labs創建的一個擁有16億參數的文本轉語音模型。它能夠直接從文本轉錄中生成高度逼真的對話，還可根據音頻條件控制輸出的情感和語調，甚至能生成笑聲、咳嗽聲等非語言交流內容。

🚀 快速開始

此操作將打開一個Gradio用戶界面供你使用。

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

若你尚未預先安裝uv，可按以下步驟操作：

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

請注意，該模型未針對特定語音進行微調，因此每次運行模型時可能會得到不同的語音。你可以通過添加音頻提示（相關指南即將推出，目前可在Gradio上嘗試第二個示例）或固定隨機種子來保持說話者的一致性。

✨ 主要特性

對話生成：通過[S1]和[S2]標籤生成對話。
非語言交流生成：能夠生成如(laughs)、(coughs)等非語言交流內容。以下非語言標籤會被識別，但可能會產生意外輸出：(laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)。
語音克隆：詳情請參考example/voice_clone.py。在Hugging Face空間中，你可以上傳想要克隆的音頻，並在腳本前放置其轉錄文本。請確保轉錄文本符合要求的格式，模型將僅輸出腳本內容。

💻 使用示例

基礎用法

import soundfile as sf

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."

output = model.generate(text)

sf.write("simple.mp3", output, 44100)

一個pypi包和一個可用的命令行工具即將推出。