speecht5_tts开源英语语音合成模型 - 免费生成多种英语口音语音

首页

Speecht5 Tts

由 JBZhang2342 开发

基于Microsoft SpeechT5的英语语音合成模型，在Common Voice数据集上微调，支持多种英语口音

语音合成

Transformers

英语开源协议:MIT #英语语音合成 #多口音支持 #CommonVoice微调

下载量 14

发布时间 : 11/10/2023

模型简介

这是一个文本转语音(TTS)模型，能够将英语文本转换为自然语音输出，特别针对不同英语口音进行了优化

模型特点

多口音支持

在Common Voice数据集上微调，能够处理多种英语口音

高质量语音合成

基于SpeechT5架构，生成自然流畅的语音输出

开源许可

采用MIT许可证，允许商业和研究用途

模型能力

英语文本转语音

多口音语音合成

高质量语音生成

使用案例

辅助技术

屏幕阅读器

为视障用户提供语音输出

内容创作

播客生成

自动将文本内容转换为语音播客

教育

语言学习

提供不同口音的英语发音示例

🚀 带英语口音的SpeechT5文本转语音模型

本模型是在Common Voice数据集上对 microsoft/speecht5_tts 进行微调后的版本。它在评估集上取得了以下结果：

损失值：0.5854

🚀 快速开始

本模型是基于 microsoft/speecht5_tts 模型在Common Voice数据集上微调而来。可直接使用该模型进行英语带口音的文本转语音任务。

📦 安装指南

文档未提及安装步骤，跳过该章节。

💻 使用示例

文档未提供代码示例，跳过该章节。

📚 详细文档

模型描述

本模型是对 microsoft/speecht5_tts 在Common Voice数据集上进行微调得到的。目前关于模型的更多详细信息待补充。

预期用途和限制

目前关于本模型的预期用途和限制的更多信息待补充。

训练和评估数据

目前关于训练和评估数据的更多信息待补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0001
训练批次大小：4
评估批次大小：4
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练步数：10000
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失
无记录	1.41	250	0.5448
0.6715	2.82	500	0.5147
0.6715	4.24	750	0.5225
0.5532	5.65	1000	0.5096
0.5532	7.06	1250	0.5293
0.5156	8.47	1500	0.5310
0.5156	9.89	1750	0.5417
0.4874	11.3	2000	0.5185
0.4874	12.71	2250	0.5112
0.4693	14.12	2500	0.5154
0.4693	15.54	2750	0.5148
0.4619	16.95	3000	0.5367
0.4619	18.36	3250	0.5207
0.447	19.77	3500	0.5318
0.447	21.19	3750	0.5286
0.4348	22.6	4000	0.5345
0.4348	24.01	4250	0.5362
0.4237	25.42	4500	0.5568
0.4237	26.84	4750	0.5352
0.4195	28.25	5000	0.5395
0.4195	29.66	5250	0.5487
0.4132	31.07	5500	0.5443
0.4132	32.49	5750	0.5491
0.3975	33.9	6000	0.5465
0.3975	35.31	6250	0.5505
0.396	36.72	6500	0.5450
0.396	38.14	6750	0.5510
0.3884	39.55	7000	0.5517
0.3884	40.96	7250	0.5685
0.383	42.37	7500	0.5622
0.383	43.79	7750	0.5659
0.3806	45.2	8000	0.5636
0.3806	46.61	8250	0.5681
0.3738	48.02	8500	0.5797
0.3738	49.44	8750	0.5741
0.3705	50.85	9000	0.5765
0.3705	52.26	9250	0.5770
0.364	53.67	9500	0.5854
0.364	55.08	9750	0.5806
0.36	56.5	10000	0.5854