tts-v1-finetuned开源文本转语音模型 - 自然对话场景丹麦语音合成

首页

Tts V1 Finetuned

由 syvai 开发

基于1000+小时丹麦语数据训练的文本转语音模型，支持自然对话场景的语音合成

语音合成

Transformers

#丹麦语TTS #LLAMA架构 #自然对话合成

下载量 84

发布时间 : 4/25/2025

模型简介

首个开源文本转语音模型，专为丹麦语优化，采用LLAMA 3.2 3B架构，可通过主流推理框架部署

模型特点

丹麦语优化

专门针对丹麦语进行微调，支持自然对话场景的语音合成

LLM架构兼容性

采用LLAMA架构，可通过vLLM、ollama等主流推理框架部署

长序列处理

支持8192长度的序列处理，适合长文本语音合成

高效训练配置

采用闪存注意力、梯度检查点等优化技术提升训练效率

模型能力

丹麦语文本转语音

长文本语音合成

自然对话风格语音生成

使用案例

语音交互系统

丹麦语语音助手

为丹麦语地区开发语音交互助手

无障碍服务

文本朗读服务

为视障人士提供丹麦语内容朗读

🚀 syv.ai TTS v0.1

syv.ai TTS v0.1是我们的首个开源文本转语音模型。它在超过1000小时的丹麦语语音数据上进行了训练，能够为用户提供高质量的丹麦语语音合成服务。

🚀 快速开始

TTS v0.1是我们的第一个开源文本转语音模型。它在超过1000小时的丹麦语语音数据上进行了训练。

✨ 主要特性

模型特性

该模型最初是一个LLAMA 3.2 3B模型，它先在100000小时的英语数据上进行训练，随后我们对其进行微调，使其能够说丹麦语。

由于该模型是一个大语言模型（LLM），这意味着可以使用vLLM、ollama或其他流行的推理框架对其进行推理。

我们建议您参考Orpheus中推理的实现方式。

寻求更多语音数据

如果您有语音数据（最好是非朗读语音），欢迎与我们联系。我们特别需要正常对话语音数据。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

训练配置

axolotl版本：0.8.0

base_model: syvai/tts-v1-pretrained
# 自动将检查点和最终模型上传到HF
hub_model_id: syvai/tts-v1-finetuned

plugins:
  - axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true

datasets:
  - path: syvai/zac-coral-tts
    type: 
dataset_prepared_path: last_run_prepared
val_set_size: 0.01
eval_sample_packing: False
output_dir: ./outputs/finetuned

sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true

wandb_project: orph
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:

gradient_accumulation_steps: 8
micro_batch_size: 4
num_epochs: 3
optimizer: adamw_torch_fused
lr_scheduler: cosine
learning_rate: 2e-5

bf16: auto
tf32: false

gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: false
resume_from_checkpoint:
logging_steps: 1
flash_attention: true

warmup_steps: 3
evals_per_epoch: 5
saves_per_epoch: 5
weight_decay: 0.05

special_tokens:
  pad_token: <custom_token_7>

模型微调信息

这个模型是syvai/tts-v1-pretrained在syvai/zac-coral-tts数据集上的微调版本。它在评估集上取得了以下结果：

损失值：4.2860

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：2e - 05
训练批次大小：4
评估批次大小：4
随机种子：42
梯度累积步数：8
总训练批次大小：32
优化器：使用OptimizerNames.ADAMW_TORCH_FUSED，β值为(0.9, 0.999)，ε值为1e - 08，无额外优化器参数
学习率调度器类型：余弦
学习率调度器热身步数：3
训练轮数：3.0

训练结果

训练损失	轮数	步数	验证损失
4.9492	0.0246	1	4.8478
4.7181	0.1969	8	4.5872
4.5871	0.3938	16	4.4631
4.557	0.5908	24	4.3972
4.4965	0.7877	32	4.3521
4.4697	0.9846	40	4.3258
4.4525	1.1723	48	4.3083
4.4301	1.3692	56	4.2980
4.4459	1.5662	64	4.2915
4.4382	1.7631	72	4.2893
4.4315	1.96	80	4.2866
4.4178	2.1477	88	4.2861
4.4501	2.3446	96	4.2859
4.4121	2.5415	104	4.2856
4.4164	2.7385	112	4.2859
4.4264	2.9354	120	4.2860