Vits Ar
模型简介
模型特点
模型能力
使用案例
🚀 阿拉伯语VITS语音合成模型
本项目是一个先进的阿拉伯语语音合成系统,基于VITS架构,利用Facebook预训练权重,能生成自然逼真的阿拉伯语语音,理解多种方言。
🚀 快速开始
MMS - TTS自🤗 Transformers库4.33版本起可用。要使用此模型,首先安装最新版本的库:
pip install transformers[torch]
然后,使用以下代码片段进行推理:
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("wasmdashai/vits-ar")
tokenizer = AutoTokenizer.from_pretrained("wasmdashai/vits-ar")
text = "السلام عليكم ورحمة الله وبركاتة ما الجديد ؟ "
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
full_generation =model(**inputs)
full_generation_waveform = full_generation.waveform.cpu().numpy().reshape(-1)
from IPython.display import Audio
Audio(full_generation_waveform, rate=model.config.sampling_rate)
✨ 主要特性
- 生成自然逼真的语音:能够生成高质量的阿拉伯语语音,高度模仿人类声音,保留语调与语言细微差别。
- 理解口语化文本:可以处理用各种阿拉伯方言书写的文本,包括习语表达和当地词汇。
📦 安装指南
要使用此模型,需先安装🤗 Transformers库的最新版本:
pip install transformers[torch]
💻 使用示例
基础用法
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("wasmdashai/vits-ar")
tokenizer = AutoTokenizer.from_pretrained("wasmdashai/vits-ar")
text = "السلام عليكم ورحمة الله وبركاتة ما الجديد ؟ "
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
full_generation =model(**inputs)
full_generation_waveform = full_generation.waveform.cpu().numpy().reshape(-1)
from IPython.display import Audio
Audio(full_generation_waveform, rate=model.config.sampling_rate)
📚 详细文档
模型详情
这是一个专门为阿拉伯语设计的先进文本到语音(TTS)系统,基于VITS架构构建,并利用了Facebook的vits ara模型的预训练权重。
模型描述
VITS(基于对抗学习的变分推理端到端文本到语音)是一种端到端的语音合成模型,它根据输入的文本序列预测语音波形。它是一个条件变分自编码器(VAE),由后验编码器、解码器和条件先验组成。
基于频谱图的声学特征由基于流的模块预测,该模块由基于Transformer的文本编码器和多个耦合层组成。频谱图使用一组转置卷积层进行解码,与HiFi - GAN声码器的风格非常相似。考虑到TTS问题的一对多性质,即相同的文本输入可以有多种发音方式,该模型还包括一个随机时长预测器,允许模型从相同的输入文本合成不同节奏的语音。
🔧 技术细节
所有模型均基于VITS架构,这是一个完整的文本到语音模型,能够根据文本输入生成逼真的语音波形。模型包含转换器,用于分析文本并根据每种方言的本地语音特征生成语音。
📄 许可证
本项目采用afl - 3.0许可证。
阿拉伯语方言语音生成模型集合
简介
我们很高兴地宣布即将发布一系列阿拉伯语方言语音生成模型。这些模型采用先进的人工智能技术,旨在提供自然、真实的阿拉伯语方言文本到语音转换体验。
模型列表
属性 | 详情 |
---|---|
模型类型 | 阿拉伯语语音合成模型 |
训练数据 | mozilla - foundation/common_voice_17_0、wasmdashai/db - arabic - f1 - nn |
许可证 | afl - 3.0 |
任务类型 | 文本到语音 |
方言 | 模型名称 | 描述 | 预计发布日期 | 语音质量水平 |
---|---|---|---|---|
标准阿拉伯语 | [vits - ar](https://huggingface.co/wasmdashai/vits - ar) | 用于将文本转换为也门方言语音的模型,细节丰富。 | 已可用 | 中等 |
也门方言 | [vits - ar - ye](https://huggingface.co/wasmdashai/vits - ar - ye) | 用于将文本转换为也门方言语音的模型,细节丰富。 | 即将推出 | 中等 |
沙特方言 | [vits - ar - sa](https://huggingface.co/wasmdashai/vits - ar - sa - huba) | 用于将文本转换为沙特方言语音的模型,质量高且细节丰富。 | 已可用 | 中等 |
埃及方言 | [vits - ar - eg](https://huggingface.co/wasmdashai/vits - ar - eg) | 用于将文本转换为埃及方言语音的模型,风格自然流畅。 | 即将推出 | 中等 |
黎巴嫩方言 | [vits - ar - lb](https://huggingface.co/wasmdashai/vits - ar - lb) | 专门用于黎巴嫩方言的模型,可生成细节丰富、真实的语音。 | 即将推出 | 中等 |
摩洛哥方言 | [vits - ar - ma](https://huggingface.co/wasmdashai/vits - ar - ma) | 用于将文本转换为摩洛哥方言语音的模型,能够理解当地术语。 | 即将推出 | 中等 |
阿联酋方言 | [vits - ar - ae](https://huggingface.co/wasmdashai/vits - ar - ae) | 用于将文本转换为阿联酋方言语音的模型,真实且细节丰富。 | 即将推出 | 中等 |
约旦方言 | [vits - ar - jo](https://huggingface.co/wasmdashai/vits - ar - jo) | 用于将文本转换为约旦方言语音的模型,精通语音细节。 | 即将推出 | 中等 |
伊拉克方言 | [vits - ar - iq](https://huggingface.co/wasmdashai/vits - ar - iq) | 用于生成伊拉克方言语音的模型,在单词发音和常用表达上准确无误。 | 即将推出 | 中等 |
叙利亚方言 | [vits - ar - sy](https://huggingface.co/wasmdashai/vits - ar - sy) | 用于将文本转换为叙利亚方言语音的模型,清晰自然。 | 即将推出 | 中等 |
巴勒斯坦方言 | [vits - ar - ps](https://huggingface.co/wasmdashai/vits - ar - ps) | 用于将文本转换为巴勒斯坦方言语音的模型,细节丰富。 | 即将推出 | 中等 |
苏丹方言 | [vits - ar - sd](https://huggingface.co/wasmdashai/vits - ar - sd) | 用于将文本转换为苏丹方言语音的模型,理解当地词汇。 | 即将推出 | 中等 |
阿尔及利亚方言 | [vits - ar - dz](https://huggingface.co/wasmdashai/vits - ar - dz) | 用于将文本转换为阿尔及利亚方言语音的模型,高质量准确。 | 即将推出 | 中等 |
突尼斯方言 | [vits - ar - tn](https://huggingface.co/wasmdashai/vits - ar - tn) | 用于将文本转换为突尼斯方言语音的模型,精通当地细节。 | 即将推出 | 中等 |
利比亚方言 | [vits - ar - ly](https://huggingface.co/wasmdashai/vits - ar - ly) | 用于将文本转换为利比亚方言语音的模型,发音准确真实。 | 即将推出 | 中等 |
巴林方言 | [vits - ar - bh](https://huggingface.co/wasmdashai/vits - ar - bh) | 用于将文本转换为巴林方言语音的模型,语音质量高。 | 即将推出 | 中等 |
阿曼方言 | [vits - ar - om](https://huggingface.co/wasmdashai/vits - ar - om) | 用于将文本转换为阿曼方言语音的模型,发音准确清晰。 | 即将推出 | 中等 |
卡塔尔方言 | [vits - ar - qa](https://huggingface.co/wasmdashai/vits - ar - qa) | 用于将文本转换为卡塔尔方言语音的模型,细节丰富、真实。 | 即将推出 | 中等 |
科威特方言 | [vits - ar - kw](https://huggingface.co/wasmdashai/vits - ar - kw) | 用于将文本转换为科威特方言语音的模型,质量高且清晰。 | 即将推出 | 中等 |
毛里塔尼亚方言 | [vits - ar - mr](https://huggingface.co/wasmdashai/vits - ar - mr) | 用于将文本转换为毛里塔尼亚方言语音的模型,细节丰富、真实。 | 即将推出 | 中等 |
未来更新
我们将定期提供更新,以提高语音质量并增强对各种方言的理解能力。请关注我们以获取每个模型的确切发布日期。
致谢
本实现基于[tts - arabic](https://github.com/nipponjo/tts - arabic - pytorch)、VITS、[Finetune VITS](https://github.com/ylacombe/finetune - hf - vits)和[Bert - VITS2](https://github.com/fishaudio/Bert - VITS2)。我们感谢他们的出色工作。




