Dia1.6 Pt BR V1
基於Dia 1.6B文本轉音頻模型的微調版本,專門針對巴西葡萄牙語進行優化
下載量 77
發布時間 : 5/5/2025
模型概述
這是一個專注於巴西葡萄牙語語音合成的文本轉語音模型,通過CETUC數據集微調,生成純淨的葡萄牙語語音
模型特點
巴西葡萄牙語優化
專門針對巴西葡萄牙語進行微調,提供更地道的語音輸出
純淨語音合成
專注於標準語音合成,去除了原始模型的情感表達能力
高效訓練
在單張RTX 4090顯卡上僅用20小時完成訓練
多版本支持
提供純葡萄牙語版和與原版融合的混合版本
模型能力
文本轉語音
巴西葡萄牙語語音合成
單一說話人語音生成
使用案例
語音應用
語音助手
為巴西葡萄牙語用戶提供語音交互功能
生成自然的巴西葡萄牙語語音
有聲讀物
將葡萄牙語文本轉換為語音
流暢的語音輸出
🚀 Dia1.6-葡萄牙語版
這是 Dia 1.6B 文本轉音頻模型的微調版本,使用 CETUC 語音數據集針對巴西葡萄牙語進行了適配。
🚀 快速開始
本模型是文本轉音頻模型,可用於巴西葡萄牙語的語音合成。如果你有相關需求,可以基於此模型開展工作。
✨ 主要特性
- 基於強大的 Dia 1.6B 基礎模型進行微調。
- 專注於巴西葡萄牙語語音合成,捨棄了原有的英語和表達能力(如笑聲、情感等)。
- 提供多種版本,滿足不同使用場景。
📚 詳細文檔
🗣️ 關於模型
- 🧠 基礎模型:Dia 1.6B
- 📦 數據集:CETUC — 包含 144 小時的巴西葡萄牙語語音(100 位說話者)
- 📝 轉錄:使用 Whisper V3 Turbo + Pyannote 說話人分割 進行
- 🔁 訓練:在單說話者子集上進行 140,000 步訓練(約 1.4 個 epoch)
- ⏱️ 硬件:在單張 NVIDIA RTX 4090 上訓練(總計約 20 小時)
- 🎙️ 說話人標記:
[S1]
(僅存在一位說話者) - ⚠️ 注意:該模型 失去了原有的英語和表達能力(如笑聲、情感等),專注於清晰的巴西葡萄牙語語音合成。
🧪 版本
版本 | 描述 | 文件 |
---|---|---|
v1 |
完全針對葡萄牙語進行微調 | Dia1.6-Portuguese-v1.pth |
v1-safetensors |
與上述模型相同,但採用 .safetensors 格式 |
Dia1.6-Portuguese-v1.safetensors |
v1-merged-alpha0.6 |
使用 alpha = 0.6 與原始 Dia 權重合並 |
Dia1.6-Portuguese-v1-merged.pth |
v1-merged-alpha0.6-safetensors |
合併版本,採用 .safetensors 格式 |
Dia1.6-Portuguese-v1-merged.safetensors |
📁 文件
config.json
:Dia 模型配置文件Dia1.6-Portuguese-v1.pth
:完全微調後的模型Dia1.6-Portuguese-v1.safetensors
:與上述模型相同,但採用.safetensors
格式Dia1.6-Portuguese-v1-merged.pth
:合併版本(alpha=0.6)Dia1.6-Portuguese-v1-merged.safetensors
:合併版本,採用.safetensors
格式
▶️ 音頻示例
提示 | 音頻示例 |
---|---|
示例 1[S1] Às vezes, tudo o que você precisa é respirar fundo e lembrar que nem tudo precisa ser resolvido hoje. A calma também é uma forma de seguir em frente. |
🎧 原始版本 (生成失敗) 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 2[S1] Eu lembro exatamente da primeira vez que ouvi minha própria voz gerada por IA. Foi estranho, quase surreal. Mas ao mesmo tempo, foi incrível perceber até onde a tecnologia já chegou. |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 3[S1] Era uma vez um menino chamado Leo que adorava olhar para o céu. Todas as noites ele subia no telhado de casa com seu velho binóculo e ficava horas tentando contar as estrelas. Um dia, ele viu algo diferente. Não era um avião, nem um satélite. Era uma luz que piscava lentamente, mudando de cor. No dia seguinte, ninguém acreditou nele. Mas Leo sabia o que tinha visto. E naquela noite, a luz voltou. Só que dessa vez, ela piscou duas vezes... como se estivesse respondendo. |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 4[S1] Cara, sério... esse setup ficou simplesmente insane. Nunca vi uma configuração tão limpa! |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 5[S1] Aproveite agora a promoção especial da semana. São até cinquenta por cento de desconto em produtos selecionados, por tempo limitado. Corra e garanta o seu antes que acabe. |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 6[S1] Se você ainda não testou esse modelo, tá perdendo tempo. (laughs) Ele é rápido, leve e roda até em máquina fraca. Sério, eu não esperava tanto desempenho em algo open source. |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 7[S1] Acredite: ninguém no mundo tem exatamente o que você tem. Sua visão, sua voz, sua forma de enxergar as coisas. Isso já é suficiente pra começar. |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 8[S1] Você diz que quer mudar, mas continua fazendo tudo igual. Quer resultado novo com atitude velha? Não funciona. O mundo não vai parar pra te esperar, e a oportunidade não fica batendo na porta pra sempre. Ou você levanta agora e faz o que precisa, ou aceita viver sempre no quase. |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 9[S1] Você vai desistir agora? Depois de tudo que já passou? [S2] (sighs) Eu tô cansado. Nada parece dar certo. [S1] Cansado todo mundo fica. Mas você não chegou até aqui por sorte. [S2] (pause) Eu só... não sei se ainda consigo. [S1] Consegue sim. Você já levantou antes. (inhales) Levanta de novo. [S2] (exhales) Tá certo. Não acabou enquanto eu não disser que acabou. [S1] Isso. Agora vai lá e faz o que tem que ser feito. |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
示例 10[S1] Welcome back to the channel! Today, I’m going to show you how to turn basic text into realistic speech using open-source tools. It’s easier than you think, and by the end of this video, you’ll be able to generate your own voiceovers like a pro. |
🎧 原始版本 🇧🇷 僅葡萄牙語版本 🔀 合併版本 0.6 |
🏷️ 標籤
tts
、portuguese
、finetuned
、text-to-audio
、CETUC
、Dia
、speech-synthesis
、huggingface
、audio-generation
📄 許可證
採用 Apache 2.0 許可證,與原始 Dia 模型相同。
🙏 致謝
- 原始模型由 nari-labs 提供
- 巴西葡萄牙語數據集來自 CETUC
- 轉錄使用 Whisper V3 Turbo 和 Pyannote
- 微調腳本由 stlohrey/dia-finetuning 提供
- 自定義訓練腳本、數據集準備和模型適配由 alisson-anjos 完成
Kokoro 82M
Apache-2.0
Kokoro是一款擁有8200萬參數的開源文本轉語音(TTS)模型,以其輕量級架構和高音質著稱,同時具備快速和成本效益高的特點。
語音合成 英語
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的語音生成模型,僅需6秒音頻片段即可實現跨語言音色克隆,支持17種語言。
語音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一個基於流匹配的語音合成模型,專注於流暢且忠實的語音合成,特別適用於童話講述等場景。
語音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠從梅爾頻譜生成高質量音頻波形。
語音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基於LibriTTS數據集微調的SpeechT5語音合成(文本轉語音)模型,支持高質量的文本轉語音轉換。
語音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari實驗室開發的16億參數文本轉語音模型,能夠直接從文本生成高度逼真的對話,支持情感和語調控制,並能生成非語言交流內容。
語音合成
Safetensors 英語
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame開發的10億參數規模語音生成模型,可根據文本和音頻輸入生成RVQ音頻編碼
語音合成
Safetensors 英語
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一個開放權重的小型但功能強大的文本轉語音(TTS)模型系列,新增了來自專業數據集的100名中文說話人數據。
語音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多語言印度語言擴展版本,支持21種語言,包括多種印度語言和英語。
語音合成
Transformers 支持多種語言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
語音合成
Transformers 支持多種語言

B
suno
35.72k
1,326
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98