CosyVoice-300M-SFT開源文本轉語音模型 - 支持多語言多風格聲音合成

首頁

Cosyvoice 300M SFT

由FunAudioLLM開發

CosyVoice是一個文本轉語音(TTS)模型，支持多種語言和風格的聲音合成。

語音合成 #多語言語音合成 #零樣本語音克隆 #情感語音生成

下載量 1,768

發布時間 : 7/18/2024

模型概述

CosyVoice是一個先進的文本轉語音模型，支持零樣本學習、跨語言轉換和指令控制的聲音合成。

模型特點

多語言支持

支持中文、英文、日語、粵語和韓語等多種語言的語音合成。

零樣本學習

無需特定說話人的訓練數據，即可模仿其語音風格。

跨語言轉換

可以將一種語言的語音風格應用到另一種語言的文本上。

指令控制

支持通過特殊標籤控制語音的情感表達和風格。

模型能力

文本轉語音

語音風格轉換

多語言合成

情感語音合成

使用案例

語音助手

智能客服

為客服系統提供自然流暢的語音輸出。

提升用戶體驗，減少人工客服壓力

內容創作

有聲讀物製作

快速將文本內容轉換為多種風格的語音。

提高內容生產效率，降低製作成本

教育

語言學習

提供標準發音的多語言語音樣本。

幫助學習者掌握正確發音

🚀 CosyVoice

CosyVoice是一個文本轉語音的工具，提供了多種模型和資源，支持零樣本、跨語言、SFT和指令推理等多種模式，還提供了Web演示和高級使用腳本。

🚀 快速開始

你可以通過以下鏈接查看CosyVoice的演示、論文、工作室和代碼：

如果你想了解 SenseVoice，請訪問 SenseVoice repo 和 SenseVoice space。

📦 安裝指南

克隆並安裝

克隆倉庫：

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
# 如果由於網絡問題克隆子模塊失敗，請運行以下命令直到成功
cd CosyVoice
git submodule update --init --recursive

安裝Conda：請參考 https://docs.conda.io/en/latest/miniconda.html。
創建Conda環境：

conda create -n cosyvoice python=3.8
conda activate cosyvoice
# pynini是WeTextProcessing所需的，使用conda安裝，因為它可以在所有平臺上執行。
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# 如果你遇到sox兼容性問題
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel

模型下載

強烈建議你下載預訓練的 CosyVoice-300M、CosyVoice-300M-SFT、CosyVoice-300M-Instruct 模型和 CosyVoice-ttsfrd 資源。如果你是該領域的專家，並且只想從頭開始訓練自己的CosyVoice模型，可以跳過此步驟。

# SDK模型下載
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

# git模型下載，請確保已安裝git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

你可以選擇解壓 ttsfrd 資源並安裝 ttsfrd 包，以獲得更好的文本規範化性能。注意，此步驟不是必需的。如果你不安裝 ttsfrd 包，我們將默認使用WeTextProcessing。

cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl

💻 使用示例

基礎用法

零樣本/跨語言推理，請使用 CosyVoice-300M 模型。
SFT推理，請使用 CosyVoice-300M-SFT 模型。
指令推理，請使用 CosyVoice-300M-Instruct 模型。

首先，將 third_party/Matcha-TTS 添加到你的 PYTHONPATH 中。

export PYTHONPATH=third_party/Matcha-TTS

from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
# sft usage
print(cosyvoice.list_avaliable_spks())
# change stream=True for chunk stream inference
for i, j in enumerate(cosyvoice.inference_sft('你好，我是通義生成式語音大模型，請問有什麼可以幫您的嗎？', '中文女', stream=False)):
    torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友從遠方寄來的生日禮物，那份意外的驚喜與深深的祝福讓我心中充滿了甜蜜的快樂，笑容如花兒般綻放。', '希望你以後能夠做的比我還好呦。', prompt_speech_16k, stream=False)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
    torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
for i, j in enumerate(cosyvoice.inference_instruct('在面對挑戰時，他展現了非凡的<strong>勇氣</strong>與<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):
    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], 22050)

啟動Web演示

你可以使用我們的Web演示頁面快速熟悉CosyVoice。我們在Web演示中支持SFT、零樣本、跨語言和指令推理。詳情請查看演示網站。

# 更改iic/CosyVoice-300M-SFT用於SFT推理，或iic/CosyVoice-300M-Instruct用於指令推理
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

高級用法

對於高級用戶，我們在 examples/libritts/cosyvoice/run.sh 中提供了訓練和推理腳本。你可以按照這個指南熟悉CosyVoice。

構建部署

如果你想使用gRPC進行服務部署，可以執行以下步驟。否則，你可以忽略此步驟。

cd runtime/python
docker build -t cosyvoice:v1.0 .
# 如果你想使用指令推理，將iic/CosyVoice-300M更改為iic/CosyVoice-300M-Instruct
# for grpc usage
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --max_conc 4 --model_dir iic/CosyVoice-300M && sleep infinity"
cd grpc && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>
# for fastapi usage
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && MODEL_DIR=iic/CosyVoice-300M fastapi dev --port 50000 server.py && sleep infinity"
cd fastapi && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>