🚀 syv.ai TTS v0.1
syv.ai TTS v0.1是我们的首个开源文本转语音模型。它在超过1000小时的丹麦语语音数据上进行了训练,能够为用户提供高质量的丹麦语语音合成服务。
🚀 快速开始
TTS v0.1是我们的第一个开源文本转语音模型。它在超过1000小时的丹麦语语音数据上进行了训练。
✨ 主要特性
模型特性
该模型最初是一个LLAMA 3.2 3B模型,它先在100000小时的英语数据上进行训练,随后我们对其进行微调,使其能够说丹麦语。
由于该模型是一个大语言模型(LLM),这意味着可以使用vLLM、ollama或其他流行的推理框架对其进行推理。
我们建议您参考Orpheus中推理的实现方式。
寻求更多语音数据
如果您有语音数据(最好是非朗读语音),欢迎与我们联系。我们特别需要正常对话语音数据。
📦 安装指南
文档未提供安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
训练配置
axolotl版本:0.8.0
base_model: syvai/tts-v1-pretrained
hub_model_id: syvai/tts-v1-finetuned
plugins:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true
datasets:
- path: syvai/zac-coral-tts
type:
dataset_prepared_path: last_run_prepared
val_set_size: 0.01
eval_sample_packing: False
output_dir: ./outputs/finetuned
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
wandb_project: orph
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:
gradient_accumulation_steps: 8
micro_batch_size: 4
num_epochs: 3
optimizer: adamw_torch_fused
lr_scheduler: cosine
learning_rate: 2e-5
bf16: auto
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
resume_from_checkpoint:
logging_steps: 1
flash_attention: true
warmup_steps: 3
evals_per_epoch: 5
saves_per_epoch: 5
weight_decay: 0.05
special_tokens:
pad_token: <custom_token_7>
模型微调信息
这个模型是syvai/tts-v1-pretrained在syvai/zac-coral-tts数据集上的微调版本。
它在评估集上取得了以下结果:
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e - 05
- 训练批次大小:4
- 评估批次大小:4
- 随机种子:42
- 梯度累积步数:8
- 总训练批次大小:32
- 优化器:使用OptimizerNames.ADAMW_TORCH_FUSED,β值为(0.9, 0.999),ε值为1e - 08,无额外优化器参数
- 学习率调度器类型:余弦
- 学习率调度器热身步数:3
- 训练轮数:3.0
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
4.9492 |
0.0246 |
1 |
4.8478 |
4.7181 |
0.1969 |
8 |
4.5872 |
4.5871 |
0.3938 |
16 |
4.4631 |
4.557 |
0.5908 |
24 |
4.3972 |
4.4965 |
0.7877 |
32 |
4.3521 |
4.4697 |
0.9846 |
40 |
4.3258 |
4.4525 |
1.1723 |
48 |
4.3083 |
4.4301 |
1.3692 |
56 |
4.2980 |
4.4459 |
1.5662 |
64 |
4.2915 |
4.4382 |
1.7631 |
72 |
4.2893 |
4.4315 |
1.96 |
80 |
4.2866 |
4.4178 |
2.1477 |
88 |
4.2861 |
4.4501 |
2.3446 |
96 |
4.2859 |
4.4121 |
2.5415 |
104 |
4.2856 |
4.4164 |
2.7385 |
112 |
4.2859 |
4.4264 |
2.9354 |
120 |
4.2860 |
框架版本
- Transformers 4.51.3
- Pytorch 2.6.0+cu124
- Datasets 3.5.0
- Tokenizers 0.21.1
🔧 技术细节
文档未提供具体的技术实现细节(>50字),暂不展示。
📄 许可证
该模型遵循MIT许可证,适用于希望将模型用于研究的个人和组织。商业使用需支付1丹麦克朗的终身许可证费用。请阅读LICENSE.txt
获取完整许可证信息。