🚀 量化版Dia 1.6B (INT8)
這是 nari-labs/Dia-1.6B 的動態int8量化版本。它採用動態量化技術,以實現更輕量級的部署和更快的推理速度。
原始模型:float16,約6.4GB
量化模型:int8動態,約6.4GB,推理速度快約20%
🚀 快速開始
這將打開一個Gradio用戶界面,你可以在上面進行操作。
git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia && uv run app.py
或者,如果你沒有預先安裝 uv
:
git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
此模型由 RobertAgee 和 RobAgrees 上傳。
在Google Colab中使用PyTorch動態量化自動進行量化。
原README內容
Dia是由Nari Labs創建的一個具有16億參數的文本轉語音模型。它使用 PytorchModelHubMixin 集成推送到Hugging Face Hub。
Dia 可以直接從文本轉錄生成高度逼真的對話。你可以根據音頻對輸出進行條件控制,從而實現對情感和語調的控制。該模型還可以生成諸如笑聲、咳嗽聲、清嗓子聲等非語言交流內容。
為了加速研究,我們提供了預訓練模型檢查點和推理代碼的訪問權限。模型權重託管在 Hugging Face 上。目前,該模型僅支持英文生成。
我們還提供了一個 演示頁面,用於將我們的模型與 ElevenLabs Studio 和 Sesame CSM-1B 進行比較。
- (更新) 我們有一個ZeroGPU Space正在運行!現在就可以 點擊這裡 進行嘗試。感謝Hugging Face團隊的支持 :)
- 加入我們的 Discord服務器,獲取社區支持並瞭解新功能。
- 體驗更大版本的Dia:生成有趣的對話、重新混合內容並與朋友分享。點擊 加入等待列表 以獲得早期訪問權限。
快速開始
這將打開一個Gradio用戶界面,你可以在上面進行操作。
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
或者,如果你沒有預先安裝 uv
:
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
請注意,該模型沒有針對特定語音進行微調。因此,每次運行模型時,你會得到不同的語音。
你可以通過添加音頻提示(很快會有使用指南 - 目前可以在Gradio上的第二個示例中嘗試)或固定隨機種子來保持說話者的一致性。
✨ 主要特性
- 通過
[S1]
和 [S2]
標籤生成對話。
- 生成非語言內容,如
(laughs)
、(coughs)
等。
- 以下非語言標籤會被識別,但可能會產生意外輸出。
(laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
- 語音克隆。更多信息請參閱
example/voice_clone.py
。
- 在Hugging Face空間中,你可以上傳想要克隆的音頻,並在腳本前放置其轉錄文本。確保轉錄文本符合所需格式。然後,模型將僅輸出腳本內容。
💻 使用示例
作為Python庫使用
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
PyPI包和可用的命令行工具將很快推出。
🔧 技術細節
硬件和推理速度
Dia僅在GPU(pytorch 2.0+,CUDA 12.6)上進行了測試。CPU支持將很快添加。
首次運行時會花費更長時間,因為還需要下載Descript音頻編解碼器。
在企業級GPU上,Dia可以即時生成音頻。在較舊的GPU上,推理時間會較慢。
作為參考,在A4000 GPU上,Dia大約每秒生成40個令牌(86個令牌相當於1秒的音頻)。
對於支持的GPU,torch.compile
將提高速度。
完整版本的Dia運行大約需要10GB的顯存。我們未來將添加量化版本。
如果你沒有可用的硬件,或者想體驗我們更大版本的模型,請 點擊這裡加入等待列表。
📄 許可證
本項目採用Apache許可證2.0 - 詳情請參閱 LICENSE 文件。
免責聲明
本項目提供了一個高保真度的語音生成模型,旨在用於研究和教育目的。以下使用方式 嚴格禁止:
- 身份盜用:未經許可,不得生成與真實個人相似的音頻。
- 虛假內容:不得使用此模型生成誤導性內容(如虛假新聞)。
- 非法或惡意使用:不得將此模型用於非法或有害活動。
使用此模型即表示你同意遵守相關法律標準和道德責任。我們 不對任何濫用行為負責,並堅決反對任何不道德的技術使用行為。
TODO / 未來工作
- 支持Docker。
- 優化推理速度。
- 添加量化以提高內存效率。
貢獻
我們是一個由1名全職和1名兼職研究工程師組成的小團隊。我們非常歡迎任何貢獻!
加入我們的 Discord服務器 進行討論。
致謝