Vits Ar
模型概述
模型特點
模型能力
使用案例
🚀 阿拉伯語VITS語音合成模型
本項目是一個先進的阿拉伯語語音合成系統,基於VITS架構,利用Facebook預訓練權重,能生成自然逼真的阿拉伯語語音,理解多種方言。
🚀 快速開始
MMS - TTS自🤗 Transformers庫4.33版本起可用。要使用此模型,首先安裝最新版本的庫:
pip install transformers[torch]
然後,使用以下代碼片段進行推理:
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("wasmdashai/vits-ar")
tokenizer = AutoTokenizer.from_pretrained("wasmdashai/vits-ar")
text = "السلام عليكم ورحمة الله وبركاتة ما الجديد ؟ "
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
full_generation =model(**inputs)
full_generation_waveform = full_generation.waveform.cpu().numpy().reshape(-1)
from IPython.display import Audio
Audio(full_generation_waveform, rate=model.config.sampling_rate)
✨ 主要特性
- 生成自然逼真的語音:能夠生成高質量的阿拉伯語語音,高度模仿人類聲音,保留語調與語言細微差別。
- 理解口語化文本:可以處理用各種阿拉伯方言書寫的文本,包括習語表達和當地詞彙。
📦 安裝指南
要使用此模型,需先安裝🤗 Transformers庫的最新版本:
pip install transformers[torch]
💻 使用示例
基礎用法
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("wasmdashai/vits-ar")
tokenizer = AutoTokenizer.from_pretrained("wasmdashai/vits-ar")
text = "السلام عليكم ورحمة الله وبركاتة ما الجديد ؟ "
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
full_generation =model(**inputs)
full_generation_waveform = full_generation.waveform.cpu().numpy().reshape(-1)
from IPython.display import Audio
Audio(full_generation_waveform, rate=model.config.sampling_rate)
📚 詳細文檔
模型詳情
這是一個專門為阿拉伯語設計的先進文本到語音(TTS)系統,基於VITS架構構建,並利用了Facebook的vits ara模型的預訓練權重。
模型描述
VITS(基於對抗學習的變分推理端到端文本到語音)是一種端到端的語音合成模型,它根據輸入的文本序列預測語音波形。它是一個條件變分自編碼器(VAE),由後驗編碼器、解碼器和條件先驗組成。
基於頻譜圖的聲學特徵由基於流的模塊預測,該模塊由基於Transformer的文本編碼器和多個耦合層組成。頻譜圖使用一組轉置卷積層進行解碼,與HiFi - GAN聲碼器的風格非常相似。考慮到TTS問題的一對多性質,即相同的文本輸入可以有多種發音方式,該模型還包括一個隨機時長預測器,允許模型從相同的輸入文本合成不同節奏的語音。
🔧 技術細節
所有模型均基於VITS架構,這是一個完整的文本到語音模型,能夠根據文本輸入生成逼真的語音波形。模型包含轉換器,用於分析文本並根據每種方言的本地語音特徵生成語音。
📄 許可證
本項目採用afl - 3.0許可證。
阿拉伯語方言語音生成模型集合
簡介
我們很高興地宣佈即將發佈一系列阿拉伯語方言語音生成模型。這些模型採用先進的人工智能技術,旨在提供自然、真實的阿拉伯語方言文本到語音轉換體驗。
模型列表
屬性 | 詳情 |
---|---|
模型類型 | 阿拉伯語語音合成模型 |
訓練數據 | mozilla - foundation/common_voice_17_0、wasmdashai/db - arabic - f1 - nn |
許可證 | afl - 3.0 |
任務類型 | 文本到語音 |
方言 | 模型名稱 | 描述 | 預計發佈日期 | 語音質量水平 |
---|---|---|---|---|
標準阿拉伯語 | [vits - ar](https://huggingface.co/wasmdashai/vits - ar) | 用於將文本轉換為也門方言語音的模型,細節豐富。 | 已可用 | 中等 |
也門方言 | [vits - ar - ye](https://huggingface.co/wasmdashai/vits - ar - ye) | 用於將文本轉換為也門方言語音的模型,細節豐富。 | 即將推出 | 中等 |
沙特方言 | [vits - ar - sa](https://huggingface.co/wasmdashai/vits - ar - sa - huba) | 用於將文本轉換為沙特方言語音的模型,質量高且細節豐富。 | 已可用 | 中等 |
埃及方言 | [vits - ar - eg](https://huggingface.co/wasmdashai/vits - ar - eg) | 用於將文本轉換為埃及方言語音的模型,風格自然流暢。 | 即將推出 | 中等 |
黎巴嫩方言 | [vits - ar - lb](https://huggingface.co/wasmdashai/vits - ar - lb) | 專門用於黎巴嫩方言的模型,可生成細節豐富、真實的語音。 | 即將推出 | 中等 |
摩洛哥方言 | [vits - ar - ma](https://huggingface.co/wasmdashai/vits - ar - ma) | 用於將文本轉換為摩洛哥方言語音的模型,能夠理解當地術語。 | 即將推出 | 中等 |
阿聯酋方言 | [vits - ar - ae](https://huggingface.co/wasmdashai/vits - ar - ae) | 用於將文本轉換為阿聯酋方言語音的模型,真實且細節豐富。 | 即將推出 | 中等 |
約旦方言 | [vits - ar - jo](https://huggingface.co/wasmdashai/vits - ar - jo) | 用於將文本轉換為約旦方言語音的模型,精通語音細節。 | 即將推出 | 中等 |
伊拉克方言 | [vits - ar - iq](https://huggingface.co/wasmdashai/vits - ar - iq) | 用於生成伊拉克方言語音的模型,在單詞發音和常用表達上準確無誤。 | 即將推出 | 中等 |
敘利亞方言 | [vits - ar - sy](https://huggingface.co/wasmdashai/vits - ar - sy) | 用於將文本轉換為敘利亞方言語音的模型,清晰自然。 | 即將推出 | 中等 |
巴勒斯坦方言 | [vits - ar - ps](https://huggingface.co/wasmdashai/vits - ar - ps) | 用於將文本轉換為巴勒斯坦方言語音的模型,細節豐富。 | 即將推出 | 中等 |
蘇丹方言 | [vits - ar - sd](https://huggingface.co/wasmdashai/vits - ar - sd) | 用於將文本轉換為蘇丹方言語音的模型,理解當地詞彙。 | 即將推出 | 中等 |
阿爾及利亞方言 | [vits - ar - dz](https://huggingface.co/wasmdashai/vits - ar - dz) | 用於將文本轉換為阿爾及利亞方言語音的模型,高質量準確。 | 即將推出 | 中等 |
突尼斯方言 | [vits - ar - tn](https://huggingface.co/wasmdashai/vits - ar - tn) | 用於將文本轉換為突尼斯方言語音的模型,精通當地細節。 | 即將推出 | 中等 |
利比亞方言 | [vits - ar - ly](https://huggingface.co/wasmdashai/vits - ar - ly) | 用於將文本轉換為利比亞方言語音的模型,發音準確真實。 | 即將推出 | 中等 |
巴林方言 | [vits - ar - bh](https://huggingface.co/wasmdashai/vits - ar - bh) | 用於將文本轉換為巴林方言語音的模型,語音質量高。 | 即將推出 | 中等 |
阿曼方言 | [vits - ar - om](https://huggingface.co/wasmdashai/vits - ar - om) | 用於將文本轉換為阿曼方言語音的模型,發音準確清晰。 | 即將推出 | 中等 |
卡塔爾方言 | [vits - ar - qa](https://huggingface.co/wasmdashai/vits - ar - qa) | 用於將文本轉換為卡塔爾方言語音的模型,細節豐富、真實。 | 即將推出 | 中等 |
科威特方言 | [vits - ar - kw](https://huggingface.co/wasmdashai/vits - ar - kw) | 用於將文本轉換為科威特方言語音的模型,質量高且清晰。 | 即將推出 | 中等 |
毛里塔尼亞方言 | [vits - ar - mr](https://huggingface.co/wasmdashai/vits - ar - mr) | 用於將文本轉換為毛里塔尼亞方言語音的模型,細節豐富、真實。 | 即將推出 | 中等 |
未來更新
我們將定期提供更新,以提高語音質量並增強對各種方言的理解能力。請關注我們以獲取每個模型的確切發佈日期。
致謝
本實現基於[tts - arabic](https://github.com/nipponjo/tts - arabic - pytorch)、VITS、[Finetune VITS](https://github.com/ylacombe/finetune - hf - vits)和[Bert - VITS2](https://github.com/fishaudio/Bert - VITS2)。我們感謝他們的出色工作。




