開源quantized-dia-1.6B-int8文本轉語音模型 - 免費生成逼真對話與非語言表達

首頁

Quantized Dia 1.6B Int8

由RobAgrees開發

Dia是一款16億參數的開源文本轉語音模型，支持生成高度逼真的對話和非語言表達

語音合成

Safetensors

支持多種語言開源協議:Apache-2.0 #動態對話生成 #情感語調控制 #非語言表達合成

下載量 69

發布時間 : 4/28/2025

模型概述

Dia是由Nari Labs開發的文本轉語音模型，可直接從文本生成高度逼真的對話，支持通過音頻輸入控制情感和語調，還能生成非語言表達如笑聲、咳嗽等。

模型特點

動態int8量化

採用動態量化技術實現更輕量級部署和更快推理，推理速度提升約20%

多說話人對話生成

通過[S1]和[S2]標籤生成多角色對話

非語言表達支持

支持生成笑聲、咳嗽、清嗓等非語言表達

語音克隆功能

支持通過示例代碼實現語音克隆

模型能力

文本轉語音

多說話人對話生成

非語言表達生成

語音克隆

使用案例

對話系統

虛擬助手

為虛擬助手生成自然對話語音

生成高度逼真的對話效果

遊戲NPC

為遊戲角色生成動態語音對話

支持多角色交互和情感表達

內容創作

有聲內容製作

為播客、有聲書等生成對話內容

可生成包含非語言表達的自然對話

🚀 量化版Dia 1.6B (INT8)

這是 nari-labs/Dia-1.6B 的動態int8量化版本。它採用動態量化技術，以實現更輕量級的部署和更快的推理速度。

原始模型：float16，約6.4GB
量化模型：int8動態，約6.4GB，推理速度快約20%

🚀 快速開始

這將打開一個Gradio用戶界面，你可以在上面進行操作。

git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia && uv run app.py

或者，如果你沒有預先安裝 uv：

git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

此模型由 RobertAgee 和 RobAgrees 上傳。

在Google Colab中使用PyTorch動態量化自動進行量化。

原README內容

Dia是由Nari Labs創建的一個具有16億參數的文本轉語音模型。它使用 PytorchModelHubMixin 集成推送到Hugging Face Hub。

Dia 可以直接從文本轉錄生成高度逼真的對話。你可以根據音頻對輸出進行條件控制，從而實現對情感和語調的控制。該模型還可以生成諸如笑聲、咳嗽聲、清嗓子聲等非語言交流內容。

為了加速研究，我們提供了預訓練模型檢查點和推理代碼的訪問權限。模型權重託管在 Hugging Face 上。目前，該模型僅支持英文生成。

我們還提供了一個演示頁面，用於將我們的模型與 ElevenLabs Studio 和 Sesame CSM-1B 進行比較。

(更新) 我們有一個ZeroGPU Space正在運行！現在就可以點擊這裡進行嘗試。感謝Hugging Face團隊的支持 :)
加入我們的 Discord服務器，獲取社區支持並瞭解新功能。
體驗更大版本的Dia：生成有趣的對話、重新混合內容並與朋友分享。點擊加入等待列表以獲得早期訪問權限。

快速開始

這將打開一個Gradio用戶界面，你可以在上面進行操作。

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

或者，如果你沒有預先安裝 uv：

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

請注意，該模型沒有針對特定語音進行微調。因此，每次運行模型時，你會得到不同的語音。你可以通過添加音頻提示（很快會有使用指南 - 目前可以在Gradio上的第二個示例中嘗試）或固定隨機種子來保持說話者的一致性。

✨ 主要特性

通過 [S1] 和 [S2] 標籤生成對話。
生成非語言內容，如 (laughs)、(coughs) 等。
- 以下非語言標籤會被識別，但可能會產生意外輸出。
- (laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
語音克隆。更多信息請參閱 example/voice_clone.py。
- 在Hugging Face空間中，你可以上傳想要克隆的音頻，並在腳本前放置其轉錄文本。確保轉錄文本符合所需格式。然後，模型將僅輸出腳本內容。

💻 使用示例

作為Python庫使用

import soundfile as sf

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."

output = model.generate(text)

sf.write("simple.mp3", output, 44100)

PyPI包和可用的命令行工具將很快推出。