Adia_TTS开源语音合成模型 - 免费实现沃洛夫语语音快速合成

首页

Adia TTS

由 CONCREE 开发

ADIA_TTS是由CONCREE开发的开源沃洛夫语语音合成模型，基于parler-tts-mini-multilingual-v1.1模型，在沃洛夫语语音合成方面取得了显著进展。

语音合成

Transformers

其他开源协议:Apache-2.0 #沃洛夫语语音合成 #多风格语音控制 #教育场景优化

下载量 912

发布时间 : 1/31/2025

模型简介

ADIA_TTS是一个专注于沃洛夫语的文本转语音模型，能够生成自然流畅的语音，并通过描述控制语音特性。

模型特点

多语言支持

基于parler-tts-mini-multilingual-v1.1模型，支持沃洛夫语等多种语言。

高质量语音合成

生成自然流畅的语音，适合各种应用场景。

语音风格控制

通过描述控制语音特性，如清晰、专业或教育性声音。

高效训练

基于40小时的沃洛夫语语音数据训练，经过100个epoch的精调。

模型能力

沃洛夫语文本转语音

语音风格控制

高质量语音生成

使用案例

教育

语言学习

用于沃洛夫语学习材料的语音合成，帮助学习者提高听力理解。

生成清晰且富有教育性的语音，适合学习。

专业应用

正式演讲

生成专业、清晰且沉稳的语音，适合正式场合的演讲。

语音质量高，适合正式场合使用。

日常应用

自然对话

生成温暖自然的语音，适合日常对话和互动。

语音流畅，接近自然对话。

🚀 Adia_TTS沃洛夫语语音合成模型

ADIA_TTS是由CONCREE开发的开源沃洛夫语语音合成（Text-to-Speech）模型。它基于parler-tts-mini-multilingual-v1.1模型，在沃洛夫语语音合成领域取得了显著进展。该模型经过40小时的沃洛夫语语音数据训练，并进行了100个周期（约168小时）的微调，能够生成自然流畅的语音，还可通过描述控制语音特征。

🚀 快速开始

ADIA_TTS是由CONCREE开发的用于沃洛夫语的开源语音合成模型。它基于parler-tts-mini-multilingual-v1.1模型，为沃洛夫语的语音合成带来了显著的进步。

✨ 主要特性

丰富的数据训练：在40小时的沃洛夫语语音数据上进行训练。
深度的模型微调：经过100个周期（约168小时）的微调。
自然的语音质量：生成的语音自然流畅。
灵活的语音控制：可通过描述控制语音的特征。

📦 安装指南

前置要求

Python 3.8 或更高版本
PyTorch 2.0 或更高版本
CUDA（必需，用于GPU加速）

使用以下命令安装：

pip install git+https://github.com/huggingface/parler-tts.git

💻 使用示例

基础用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

# 加载模型
model = ParlerTTSForConditionalGeneration.from_pretrained("CONCREE/Adia_TTS").to(device)
tokenizer = AutoTokenizer.from_pretrained("CONCREE/Adia_TTS")

# 待合成的沃洛夫语文本
text = "Entreprenariat ci Senegal dafa am solo lool ci yokkuteg koom-koom, di gëna yokk liggéey ak indi gis-gis yu bees ci dëkk bi."

# 语音风格描述
description = "A clear and educational voice, with a flow adapted to learning"

# 生成语音
input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_ids = tokenizer(text, return_tensors="pt").input_ids.to(device)

audio = model.generate(
    input_ids=input_ids,
    prompt_input_ids=prompt_ids,
)

# 保存语音
sf.write("output.wav", audio.cpu().numpy().squeeze(), model.config.sampling_rate)

点击下面的音频播放示例：

高级用法

generation_config = {
    "temperature": 0.8,           # 控制输出的可变性
    "max_new_tokens": 1000,       # 生成序列的最大长度
    "do_sample": True,            # 启用随机采样
    "top_k": 50,                  # 限制考虑的令牌数量
    "repetition_penalty": 1.2,    # 惩罚令牌重复
}

audio = model.generate(
    input_ids=input_ids,
    prompt_input_ids=prompt_ids,
    **generation_config
)

点击下面的音频播放示例：

语音风格示例

自然语音

description = "A warm and natural voice, with a conversational flow"

点击下面的音频播放示例：

专业语音

description = "A professional, clear and composed voice, perfect for formal presentations"

点击下面的音频播放示例：

教育语音

description = "A clear and educational voice, with a flow adapted to learning"

点击下面的音频播放示例：

📚 详细文档

技术规格

属性	详情
模型架构	parler-tts-mini-multilingual-v1.1
模型大小	1.88 GB
模型格式	PyTorch
采样频率	24kHz
音频编码	16-bit PCM

性能指标

属性	详情
平均推理时间	CPU：秒/句，GPU：20秒/句
内存消耗	3.9 GB（建议最小RAM）

🔧 技术细节

该模型基于parler-tts-mini-multilingual-v1.1架构，经过精心训练和微调，以适应沃洛夫语的语音特点。训练过程使用了40小时的沃洛夫语语音数据，并进行了100个周期的微调，以提高语音质量和自然度。

📄 许可证

本项目采用Apache 2.0许可证。有关详细信息，请参阅LICENSE文件。

使用条件

用户承诺以尊重沃洛夫语和塞内加尔文化的方式使用该模型。
鼓励使用该模型开发解决方案，以提高沃洛夫语使用者的数字可及性，并减少数字鸿沟。特别欢迎旨在实现数字包容的项目。
任何对该模型的使用都必须注明CONCREE为原始创建者。强烈鼓励用户与社区分享他们的改进。
商业使用需遵循Apache 2.0许可证的条款。

参考文献

@misc{CONCREE-2024-Adia_TTS,
  author = {CONCREE},
  title = {Adia_TTS},
  year = {2025},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/CONCREE/Adia_TTS}}
}

@misc{lyth2024natural,
  title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
  author={Dan Lyth and Simon King},
  year={2024},
  eprint={2402.01912},
  archivePrefix={arXiv},
  primaryClass={cs.SD}
}