CosyVoice-300M-SFTオープンソーステキスト-to-スピーチモデル - 多言語・多スタイルの音声合成に対応

ホーム

Cosyvoice 300M SFT

FunAudioLLMによって開発

CosyVoiceはテキスト読み上げ(TTS)モデルで、複数の言語とスタイルの音声合成をサポートしています。

音声合成 #多言語音声合成 #ゼロショット音声クローン #感情音声生成

ダウンロード数 1,768

リリース時間 : 7/18/2024

モデル概要

CosyVoiceは先進的なテキスト読み上げモデルで、ゼロショット学習、クロスランゲージ変換、命令制御の音声合成をサポートしています。

モデル特徴

多言語サポート

中国語、英語、日本語、広東語、韓国語など複数言語の音声合成をサポートします。

ゼロショット学習

特定の話者のトレーニングデータがなくても、その音声スタイルを模倣できます。

クロスランゲージ変換

ある言語の音声スタイルを別の言語のテキストに適用できます。

命令制御

特別なタグを使用して音声の感情表現やスタイルを制御できます。

モデル能力

テキスト読み上げ

音声スタイル変換

多言語合成

感情音声合成

使用事例

音声アシスタント

インテリジェントカスタマーサービス

カスタマーサービスシステムに自然で流暢な音声出力を提供します。

ユーザー体験を向上させ、人手によるカスタマーサービスの負担を軽減

コンテンツ制作

オーディオブック制作

テキストコンテンツをさまざまなスタイルの音声に迅速に変換します。

コンテンツ生産効率を向上させ、制作コストを削減

教育

言語学習

標準的な発音の多言語音声サンプルを提供します。

学習者が正しい発音を習得するのを支援

🚀 CosyVoice

CosyVoiceは、テキストを音声に変換するためのモデルです。このモデルを使用することで、様々な言語のテキストを自然な音声に変換することができます。

🚀 クイックスタート

SenseVoiceについては、SenseVoice repo と SenseVoice space をご覧ください。

✨ 主な機能

ゼロショット/クロス言語推論に対応
SFT推論とインストラクション推論をサポート
ウェブデモを通じた簡単な操作

📦 インストール

クローンとインストール

リポジトリをクローンします。

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
# ネットワークの問題でサブモジュールのクローンに失敗した場合は、以下のコマンドを成功するまで実行してください。
cd CosyVoice
git submodule update --init --recursive

Condaをインストールします。詳細は https://docs.conda.io/en/latest/miniconda.html を参照してください。
Conda環境を作成します。

conda create -n cosyvoice python=3.8
conda activate cosyvoice
# WeTextProcessingにpyniniが必要です。すべてのプラットフォームで実行できるように、condaを使用してインストールします。
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# sox互換性の問題が発生した場合
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel

モデルのダウンロード

事前学習済みの CosyVoice-300M、CosyVoice-300M-SFT、CosyVoice-300M-Instruct モデルと CosyVoice-ttsfrd リソースをダウンロードすることを強くおすすめします。

この分野の専門家で、ゼロから独自のCosyVoiceモデルをトレーニングすることにのみ興味がある場合は、この手順をスキップできます。

# SDKモデルのダウンロード
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

# gitモデルのダウンロード。git lfsがインストールされていることを確認してください。
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

オプションで、ttsfrd リソースを解凍し、ttsfrd パッケージをインストールすると、テキスト正規化のパフォーマンスが向上します。

この手順は必須ではありません。ttsfrd パッケージをインストールしない場合、デフォルトでWeTextProcessingが使用されます。

cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl

💻 使用例

基本的な使用法

ゼロショット/クロス言語推論には CosyVoice-300M モデルを使用してください。 SFT推論には CosyVoice-300M-SFT モデルを使用してください。インストラクション推論には CosyVoice-300M-Instruct モデルを使用してください。まず、third_party/Matcha-TTS を PYTHONPATH に追加します。

export PYTHONPATH=third_party/Matcha-TTS

from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
# sftの使用法
print(cosyvoice.list_avaliable_spks())
# チャンクストリーム推論の場合はstream=Trueに変更します。
for i, j in enumerate(cosyvoice.inference_sft('你好，我是通义生成式语音大模型，请问有什么可以帮您的吗？', '中文女', stream=False)):
    torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
# ゼロショットの使用法、<|zh|><|en|><|jp|><|yue|><|ko|> はそれぞれ中国語/英語/日本語/広東語/韓国語を表します。
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], 22050)
# クロス言語の使用法
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
    torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# インストラクションの使用法、<laughter></laughter><strong></strong>[laughter][breath] をサポートします。
for i, j in enumerate(cosyvoice.inference_instruct('在面对挑战时，他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):
    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], 22050)

高度な使用法

ウェブデモページを使用すると、CosyVoiceにすぐに慣れることができます。ウェブデモでは、sft/ゼロショット/クロス言語/インストラクション推論をサポートしています。詳細はデモウェブサイトを参照してください。

# sft推論の場合はiic/CosyVoice-300M-SFT、インストラクション推論の場合はiic/CosyVoice-300M-Instructに変更します。
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

高度な使用法

上級ユーザー向けに、examples/libritts/cosyvoice/run.sh にトレーニングと推論のスクリプトを用意しています。このレシピに従って、CosyVoiceに慣れることができます。

デプロイ用のビルド

オプションで、grpcを使用してサービスをデプロイしたい場合は、以下の手順を実行できます。そうでない場合は、この手順を無視して構いません。

cd runtime/python
docker build -t cosyvoice:v1.0 .
# インストラクション推論を使用する場合は、iic/CosyVoice-300Mをiic/CosyVoice-300M-Instructに変更します。
# grpcの使用法
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --max_conc 4 --model_dir iic/CosyVoice-300M && sleep infinity"
cd grpc && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>
# fastapiの使用法
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && MODEL_DIR=iic/CosyVoice-300M fastapi dev --port 50000 server.py && sleep infinity"
cd fastapi && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>