🚀 syv.ai TTS v0.1
syv.ai TTS v0.1是我們的首個開源文本轉語音模型。它在超過1000小時的丹麥語語音數據上進行了訓練,能夠為用戶提供高質量的丹麥語語音合成服務。
🚀 快速開始
TTS v0.1是我們的第一個開源文本轉語音模型。它在超過1000小時的丹麥語語音數據上進行了訓練。
✨ 主要特性
模型特性
該模型最初是一個LLAMA 3.2 3B模型,它先在100000小時的英語數據上進行訓練,隨後我們對其進行微調,使其能夠說丹麥語。
由於該模型是一個大語言模型(LLM),這意味著可以使用vLLM、ollama或其他流行的推理框架對其進行推理。
我們建議您參考Orpheus中推理的實現方式。
尋求更多語音數據
如果您有語音數據(最好是非朗讀語音),歡迎與我們聯繫。我們特別需要正常對話語音數據。
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
訓練配置
axolotl版本:0.8.0
base_model: syvai/tts-v1-pretrained
hub_model_id: syvai/tts-v1-finetuned
plugins:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true
datasets:
- path: syvai/zac-coral-tts
type:
dataset_prepared_path: last_run_prepared
val_set_size: 0.01
eval_sample_packing: False
output_dir: ./outputs/finetuned
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
wandb_project: orph
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:
gradient_accumulation_steps: 8
micro_batch_size: 4
num_epochs: 3
optimizer: adamw_torch_fused
lr_scheduler: cosine
learning_rate: 2e-5
bf16: auto
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
resume_from_checkpoint:
logging_steps: 1
flash_attention: true
warmup_steps: 3
evals_per_epoch: 5
saves_per_epoch: 5
weight_decay: 0.05
special_tokens:
pad_token: <custom_token_7>
模型微調信息
這個模型是syvai/tts-v1-pretrained在syvai/zac-coral-tts數據集上的微調版本。
它在評估集上取得了以下結果:
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:4
- 評估批次大小:4
- 隨機種子:42
- 梯度累積步數:8
- 總訓練批次大小:32
- 優化器:使用OptimizerNames.ADAMW_TORCH_FUSED,β值為(0.9, 0.999),ε值為1e - 08,無額外優化器參數
- 學習率調度器類型:餘弦
- 學習率調度器熱身步數:3
- 訓練輪數:3.0
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
4.9492 |
0.0246 |
1 |
4.8478 |
4.7181 |
0.1969 |
8 |
4.5872 |
4.5871 |
0.3938 |
16 |
4.4631 |
4.557 |
0.5908 |
24 |
4.3972 |
4.4965 |
0.7877 |
32 |
4.3521 |
4.4697 |
0.9846 |
40 |
4.3258 |
4.4525 |
1.1723 |
48 |
4.3083 |
4.4301 |
1.3692 |
56 |
4.2980 |
4.4459 |
1.5662 |
64 |
4.2915 |
4.4382 |
1.7631 |
72 |
4.2893 |
4.4315 |
1.96 |
80 |
4.2866 |
4.4178 |
2.1477 |
88 |
4.2861 |
4.4501 |
2.3446 |
96 |
4.2859 |
4.4121 |
2.5415 |
104 |
4.2856 |
4.4164 |
2.7385 |
112 |
4.2859 |
4.4264 |
2.9354 |
120 |
4.2860 |
框架版本
- Transformers 4.51.3
- Pytorch 2.6.0+cu124
- Datasets 3.5.0
- Tokenizers 0.21.1
🔧 技術細節
文檔未提供具體的技術實現細節(>50字),暫不展示。
📄 許可證
該模型遵循MIT許可證,適用於希望將模型用於研究的個人和組織。商業使用需支付1丹麥克朗的終身許可證費用。請閱讀LICENSE.txt
獲取完整許可證信息。