Speecht5 Finetuned Commonvoice Ru Translit

S

Speecht5 Finetuned Commonvoice Ru Translit

由 voxxer 开发

基于microsoft/speecht5_tts在Common Voice 13数据集上微调的俄语文本转语音模型

其他开源协议:MIT #俄语语音合成 #转写文本输入 #Common Voice微调

下载量 57

发布时间 : 8/21/2023

模型简介

该模型是一个俄语文本转语音(TTS)模型，输入应为转写形式的俄语文本。这是HF音频课程实践练习的测试模型，不适用于实际用途。

模型特点

俄语语音合成

支持将转写形式的俄语文本转换为自然语音

基于Common Voice数据集

在Mozilla Common Voice 13俄语数据集上微调

轻量级训练

作为实践练习项目，模型规模较小，训练步数有限

模型能力

俄语文本转语音

语音合成

使用案例

教育

语音合成教学示例

用于演示文本转语音模型的基本原理和工作方式

🚀 SpeechT5 - 俄语转写

这个模型是基于 microsoft/speecht5_tts 在 Common Voice 13 数据集上进行微调的版本。它在评估集上取得了以下结果：

损失值：0.4853

🚀 快速开始

本模型输入应为转写形式的俄语文本（可使用 transliterate 包）。不过要注意，这只是 HF 音频课程实践练习的一个测试，并非用于实际应用！

✨ 主要特性

基于 microsoft/speecht5_tts 模型微调，适配俄语转写文本。
在 Common Voice 13 数据集上进行训练和评估。

📚 详细文档

模型描述

输入需为转写形式的俄语文本（使用 transliterate 包）。这仅仅是 HF 音频课程实践练习的测试，不用于实际使用！

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：1e - 05
训练批次大小：8
评估批次大小：2
随机种子：42
梯度累积步数：8
总训练批次大小：64
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：400
训练步数：2000

训练结果

训练损失	轮数	步数	验证损失
1.0359	0.6	50	0.8176
0.8866	1.19	100	0.6899
0.787	1.79	150	0.6478
0.7477	2.38	200	0.6233
0.6734	2.98	250	0.5630
0.6216	3.58	300	0.5429
0.593	4.17	350	0.5304
0.5817	4.77	400	0.5282
0.5734	5.37	450	0.5167
0.5688	5.96	500	0.5209
0.5662	6.56	550	0.5095
0.5609	7.15	600	0.5127
0.554	7.75	650	0.5041
0.5522	8.35	700	0.5038
0.5372	8.94	750	0.4984
0.5432	9.54	800	0.4995
0.5384	10.13	850	0.4971
0.5345	10.73	900	0.4981
0.5358	11.33	950	0.4942
0.5332	11.92	1000	0.4906
0.5334	12.52	1050	0.4897
0.5301	13.11	1100	0.4914
0.5298	13.71	1150	0.4894
0.524	14.31	1200	0.4871
0.5221	14.9	1250	0.4884
0.525	15.5	1300	0.4883
0.5232	16.1	1350	0.4866
0.5261	16.69	1400	0.4858
0.521	17.29	1450	0.4852
0.5225	17.88	1500	0.4849
0.5219	18.48	1550	0.4860
0.5207	19.08	1600	0.4839
0.5192	19.67	1650	0.4851
0.516	20.27	1700	0.4860
0.5186	20.86	1750	0.4811
0.5233	21.46	1800	0.4841
0.5145	22.06	1850	0.4819
0.5159	22.65	1900	0.4822
0.5146	23.25	1950	0.4831
0.5175	23.85	2000	0.4853

框架版本

Transformers：4.31.0
Pytorch：2.0.1 + cu118
Datasets：2.14.4
Tokenizers：0.13.3

📄 许可证

本项目采用 MIT 许可证。

属性	详情
模型类型	基于 `microsoft/speecht5_tts` 微调的文本转语音模型
训练数据	mozilla - foundation/common_voice_13_0

⚠️ 重要提示

此模型仅为 HF 音频课程实践练习的测试，不用于实际应用。

💡 使用建议

输入文本需为转写形式的俄语文本，可使用 transliterate 包进行转写。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase