S

Speecht5 Vc

由 microsoft 开发
SpeechT5是基于CMU ARCTIC数据集微调的语音转换模型,支持将一种语音转换为另一种语音,保持内容不变但改变音色特征。
下载量 14.40k
发布时间 : 2/2/2023

模型简介

SpeechT5是一个统一模态的编码器-解码器预训练框架,专门用于语音转换任务。它可以将输入的语音波形转换为具有不同音色特征的输出语音,同时保留原始语音的内容。

模型特点

统一模态架构
采用共享的编码器-解码器网络处理语音和文本,实现跨模态的统一表示学习
跨模态向量量化
通过潜在单元随机混合语音/文本状态,实现文本与语音信息在统一语义空间的对齐
多任务适应性
预训练框架可适应多种口语处理任务,包括语音识别、合成、翻译和转换等

模型能力

语音转换
音色特征修改
语音内容保留

使用案例

语音处理
语音风格转换
将一种说话人的语音风格转换为另一种风格,适用于配音、语音合成等场景
保持语音内容不变,仅改变音色特征
语音增强应用
改善语音质量或调整语音特征,适用于通信、娱乐等领域
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase