Orpheus-TTS-Turkish-PT-2000开源TTS模型 - 支持土耳其语及多种情感表达

首页

Orpheus TTS Turkish PT 2000

由 Karayakar 开发

Orpheus是一个支持土耳其语的文本转语音(TTS)模型，基于canopylabs/orpheus-3b-0.1-pretrained训练，支持多种情感表达。

语音合成

Safetensors

其他开源协议:MIT #土耳其语语音合成 #情感语音标记 #多情感支持

下载量 36

发布时间 : 4/15/2025

模型简介

这是一个土耳其语文本转语音模型，能够将土耳其语文本转换为自然语音，并支持多种情感标记以增强语音表现力。

模型特点

情感支持

模型支持8种情感标记，包括笑声、叹息、咳嗽等，可增强语音的自然度和表现力。

大规模训练数据

使用超过220小时的合成语音数据(60+160小时)和400个真实语音表情符号数据进行训练。

易于集成

提供Flask API接口，便于与其他系统集成和使用。

模型能力

土耳其语文本转语音

情感语音合成

API接口调用

使用案例

语音合成应用

有声读物制作

将土耳其语文本转换为自然语音，用于制作有声读物。

生成带有情感表达的生动语音

语音助手

为土耳其语语音助手提供自然语音输出能力。

支持情感表达的交互式语音

🚀 俄耳甫斯土耳其语TTS模型

俄耳甫斯土耳其语TTS预训练模型（第2000步）基于 "canopylabs/orpheus-3b-0.1-pretrained" 进行训练。该模型可将文本转换为自然流畅的土耳其语语音，在语音合成领域具有较高的应用价值。

🚀 快速开始

环境创建

在Windows系统下，可按以下步骤创建虚拟环境并运行推理脚本：

# 创建虚拟环境
python -m venv venv 
venv\Scripts\activate

python inference.py

安装必要库

请从 PyTorch官网安装相应的torch版本，并安装其他必要的库：

# 从指定源安装torch相关库
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install snac pathlib torch transformers huggingface_hub librosa numpy scipy torchaudio Flask jsonify

✨ 主要特性

训练数据丰富

初始训练使用了超过60小时的合成语音数据。
训练过程中混入了额外的160多小时合成语音数据。
使用了400个表情符号（真实语音）数据以支持表情符号。

情感支持

模型支持文本中的以下情感表达：

<laugh> – 笑
<chuckle> – 轻声笑
<sigh> – 叹气
<cough> – 咳嗽
<sniffle> – 抽鼻子
<groan> – 呻吟
<yawn> – 打哈欠
<gasp> – 喘息 / 惊讶地吸气

API交互

通过Flask API可与模型进行交互，Flask配置为在端口5400上运行（可在脚本中更改）。

📦 安装指南

依赖安装

# 从指定源安装torch相关库
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install snac pathlib torch transformers huggingface_hub librosa numpy scipy torchaudio Flask jsonify

💻 使用示例

基础用法

以下是 inference.py 脚本的部分代码示例，展示了如何进行零样本语音合成：

# 从指定路径加载模型和分词器
tokenizer = load_orpheus_tokenizer()
model = load_orpheus_auto_model()
snac_model = load_snac()
prompt_pairs = get_ref_audio_and_transcript("D:\\AI_APPS\\Orpheus-TTS\\data")

# 定义待合成的文本列表
texts = ["Merhaba, orpheusTTS Turkce deneme"]

# 进行零样本语音合成
wav_forms = zero_shot_tts(prompt_pairs[0][0], prompt_pairs[0][1], texts, model, snac_model, tokenizer)

# 保存合成的语音文件
save_wav(wav_forms, 24000, ["output.wav"])

高级用法

通过API与模型进行交互，发送POST请求：

POST http://127.0.0.1:5400/generate HTTP/1.1
User-Agent: Fiddler
content-type: application/json
Host: 127.0.0.1:5400
Content-Length: 110

{
    "text": "Merhaba, orpheusTTS Turkce deneme"
}

📚 详细文档

模型信息

属性	详情
模型类型	基于Transformer架构的文本转语音模型
训练数据	超过60小时的合成语音数据用于初始训练，额外混入160多小时合成语音数据，400个表情符号（真实语音）数据用于表情符号支持