CosyVoice2-0.5B开源文本转语音模型 - 支持多语言实现高质量语音合成

首页

Cosyvoice2 0.5B

由 FunAudioLLM 开发

CosyVoice是一个文本转语音(TTS)模型，支持多语言和语音转换功能，提供高质量的语音合成能力。

语音合成

Safetensors

#多语言语音合成 #零样本语音克隆 #实时流式推理

下载量 4,573

发布时间 : 12/20/2024

模型简介

CosyVoice是一个先进的文本转语音模型，支持零样本语音合成、跨语言语音合成和语音转换功能。它能够根据文本输入生成自然流畅的语音，并支持多种语言和语音风格。

模型特点

多语言支持

支持中文、英文、日语、粤语和韩语等多种语言的语音合成

零样本语音合成

无需特定说话人数据即可生成目标语音风格的语音

跨语言语音合成

可以使用一种语言的语音样本来合成另一种语言的语音

语音转换

可以将源语音转换为目标语音风格

流式推理

支持实时流式语音生成，无质量下降

模型能力

文本转语音

语音风格转换

多语言语音合成

零样本语音合成

跨语言语音合成

流式语音生成

使用案例

语音助手

多语言语音助手

为语音助手提供自然流畅的多语言语音输出

高质量的语音合成效果

有声内容创作

有声书制作

快速将文本内容转换为自然语音

高效的内容生产流程

游戏开发

游戏角色语音

为游戏角色生成多样化的语音

丰富的角色语音表现

🚀 CosyVoice

CosyVoice 是一个文本转语音的工具库，支持多语言零样本、跨语言推理，提供流式推理模式，可用于语音合成、语音转换等多种场景。

🚀 快速开始

模型演示与文档

关于 SenseVoice，请访问 SenseVoice 仓库和 SenseVoice 空间。

路线图

2024/12
- [x] CosyVoice2 - 0.5B 模型发布
- [x] CosyVoice2 - 0.5B 流式推理且质量不下降
2024/07
- [x] 支持流匹配训练
- [x] 当 ttsfrd 不可用时支持 WeTextProcessing
- [x] Fastapi 服务器和客户端
2024/08
- [x] 支持重复感知采样（RAS）推理以提高大语言模型稳定性
- [x] 支持流式推理模式，包括 kv 缓存和 sdpa 以优化实时因子
2024/09
- [x] 25hz CosyVoice 基础模型
- [x] 25hz CosyVoice 语音转换模型
待确定
- [ ] 支持 CosyVoice2 - 0.5B 双流推理
- [ ] CosyVoice2 - 0.5B 训练和微调方案
- [ ] 使用更多多语言数据训练的 CosyVoice - 500M
- [ ] 更多...

📦 安装指南

克隆并安装

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
# 如果由于网络问题克隆子模块失败，请运行以下命令直到成功
cd CosyVoice
git submodule update --init --recursive

安装 Conda：请参考 Conda 安装文档。创建 Conda 环境：

conda create -n cosyvoice python=3.10
conda activate cosyvoice
# WeTextProcessing 需要 pynini，使用 conda 安装以确保在所有平台上都能执行
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# 如果遇到 sox 兼容性问题
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel

模型下载

强烈建议下载预训练的 CosyVoice - 300M、CosyVoice - 300M - SFT、CosyVoice - 300M - Instruct 模型和 CosyVoice - ttsfrd 资源。如果您是该领域的专家，并且只对从头开始训练自己的 CosyVoice 模型感兴趣，可以跳过此步骤。

Python SDK 下载

# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

Git 下载

# git模型下载，请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

可选步骤：可以解压 ttsfrd 资源并安装 ttsfrd 包以获得更好的文本规范化性能。注意，此步骤不是必需的。如果不安装 ttsfrd 包，默认将使用 WeTextProcessing。

cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl

💻 使用示例

基础用法

对于零样本/跨语言推理，请使用 CosyVoice2 - 0.5B 或 CosyVoice - 300M 模型；对于 SFT 推理，请使用 CosyVoice - 300M - SFT 模型；对于指令推理，请使用 CosyVoice - 300M - Instruct 模型。强烈建议使用 CosyVoice2 - 0.5B 模型以获得更好的流式性能。

首先，将 third_party/Matcha - TTS 添加到 PYTHONPATH：

export PYTHONPATH=third_party/Matcha-TTS

from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2
from cosyvoice.utils.file_utils import load_wav
import torchaudio

## cosyvoice2 usage
cosyvoice2 = CosyVoice('pretrained_models/CosyVoice-300M-SFT', load_jit=False, load_onnx=False, load_trt=False)
# sft usage
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice2.inference_zero_shot('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=True)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice2.sample_rate)

## cosyvoice usage
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT', load_jit=True, load_onnx=False, fp16=True)
# sft usage
print(cosyvoice.list_avaliable_spks())
# change stream=True for chunk stream inference
for i, j in enumerate(cosyvoice.inference_sft('你好，我是通义生成式语音大模型，请问有什么可以帮您的吗？', '中文女', stream=False)):
    torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-25Hz') # or change to pretrained_models/CosyVoice-300M for 50Hz inference
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
    torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)
# vc usage
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
source_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_vc(source_speech_16k, prompt_speech_16k, stream=False)):
    torchaudio.save('vc_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
for i, j in enumerate(cosyvoice.inference_instruct('在面对挑战时，他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):
    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

启动 Web 演示

可以使用 Web 演示页面快速熟悉 CosyVoice。Web 演示支持 SFT/零样本/跨语言/指令推理。

# change iic/CosyVoice-300M-SFT for sft inference, or iic/CosyVoice-300M-Instruct for instruct inference
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

高级用法

对于高级用户，在 examples/libritts/cosyvoice/run.sh 中提供了训练和推理脚本，可以按照该脚本熟悉 CosyVoice。

构建部署

如果想使用 gRPC 进行服务部署，可以执行以下步骤，否则可以忽略此步骤。

cd runtime/python
docker build -t cosyvoice:v1.0 .
# change iic/CosyVoice-300M to iic/CosyVoice-300M-Instruct if you want to use instruct inference
# for grpc usage
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --max_conc 4 --model_dir iic/CosyVoice-300M && sleep infinity"
cd grpc && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>
# for fastapi usage
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && python3 server.py --port 50000 --model_dir iic/CosyVoice-300M && sleep infinity"
cd fastapi && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>

📚 详细文档

讨论与交流

可以直接在 Github Issues 上进行讨论，也可以扫描二维码加入官方钉钉聊天群。钉钉群二维码

致谢

本项目借鉴了以下项目的很多代码：

引用

@article{du2024cosyvoice,
  title={Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens},
  author={Du, Zhihao and Chen, Qian and Zhang, Shiliang and Hu, Kai and Lu, Heng and Yang, Yexin and Hu, Hangrui and Zheng, Siqi and Gu, Yue and Ma, Ziyang and others},
  journal={arXiv preprint arXiv:2407.05407},
  year={2024}
}