🚀 印度多語言高質量文本轉語音模型:IndicF5
IndicF5 是一款近乎真人水平的多語言 文本轉語音(TTS) 模型。它基於來自 Rasa、IndicTTS、LIMMITS 和 IndicVoices-R 的 1417 小時高質量語音數據進行訓練。
IndicF5 支持以下 11 種印度語言:
阿薩姆語、孟加拉語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、奧里亞語、旁遮普語、泰米爾語、泰盧固語。
數據集與語言支持
屬性 |
詳情 |
數據集 |
ai4bharat/indicvoices_r、ai4bharat/Rasa |
支持語言 |
阿薩姆語、孟加拉語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、奧里亞語、旁遮普語、泰米爾語、泰盧固語 |
模型類型 |
文本轉語音 |
🚀 快速開始
📦 安裝指南
conda create -n indicf5 python=3.10 -y
conda activate indicf5
pip install git+https://github.com/ai4bharat/IndicF5.git
💻 使用示例
基礎用法
要生成語音,你需要提供三個輸入:
- 待合成的文本:你希望模型朗讀的內容。
- 參考提示音頻:一個示例語音片段,用於引導模型的韻律和說話者特徵。
- 參考提示音頻中的文本:參考提示音頻的文字轉錄。
from transformers import AutoModel
import numpy as np
import soundfile as sf
repo_id = "ai4bharat/IndicF5"
model = AutoModel.from_pretrained(repo_id, trust_remote_code=True)
audio = model(
"नमस्ते! संगीत की तरह जीवन भी खूबसूरत होता है, बस इसे सही ताल में जीना आना चाहिए.",
ref_audio_path="prompts/PAN_F_HAPPY_00001.wav",
ref_text="ਭਹੰਪੀ ਵਿੱਚ ਸਮਾਰਕਾਂ ਦੇ ਭਵਨ ਨਿਰਮਾਣ ਕਲਾ ਦੇ ਵੇਰਵੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ, ਜੋ ਮੈਨੂੰ ਖੁਸ਼ ਕਰਦੇ ਹਨ।"
)
if audio.dtype == np.int16:
audio = audio.astype(np.float32) / 32768.0
sf.write("namaste.wav", np.array(audio, dtype=np.float32), samplerate=24000)
print("音頻保存成功。")
你可以在 這裡 找到示例提示音頻。
📄 許可證
使用此模型即表示你同意僅對獲得明確許可的語音進行克隆。嚴禁未經授權的語音克隆。任何對該模型的不當使用由用戶自行承擔責任。
📚 詳細文檔
參考文獻
我們要感謝 F5-TTS 的作者們,感謝他們為這項工作做出的寶貴貢獻和提供的靈感。他們的努力對文本轉語音合成領域的發展起到了至關重要的作用。
📖 引用
如果你在研究或項目中使用了 IndicF5,請考慮引用它:
🔹 BibTeX
@misc{AI4Bharat_IndicF5_2025,
author = {Praveen S V and Srija Anand and Soma Siddhartha and Mitesh M. Khapra},
title = {IndicF5: High-Quality Text-to-Speech for Indian Languages},
year = {2025},
url = {https://github.com/AI4Bharat/IndicF5},
}