🚀 印度多语言高质量文本转语音模型:IndicF5
IndicF5 是一款近乎真人水平的多语言 文本转语音(TTS) 模型。它基于来自 Rasa、IndicTTS、LIMMITS 和 IndicVoices-R 的 1417 小时高质量语音数据进行训练。
IndicF5 支持以下 11 种印度语言:
阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语。
数据集与语言支持
属性 |
详情 |
数据集 |
ai4bharat/indicvoices_r、ai4bharat/Rasa |
支持语言 |
阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语 |
模型类型 |
文本转语音 |
🚀 快速开始
📦 安装指南
conda create -n indicf5 python=3.10 -y
conda activate indicf5
pip install git+https://github.com/ai4bharat/IndicF5.git
💻 使用示例
基础用法
要生成语音,你需要提供三个输入:
- 待合成的文本:你希望模型朗读的内容。
- 参考提示音频:一个示例语音片段,用于引导模型的韵律和说话者特征。
- 参考提示音频中的文本:参考提示音频的文字转录。
from transformers import AutoModel
import numpy as np
import soundfile as sf
repo_id = "ai4bharat/IndicF5"
model = AutoModel.from_pretrained(repo_id, trust_remote_code=True)
audio = model(
"नमस्ते! संगीत की तरह जीवन भी खूबसूरत होता है, बस इसे सही ताल में जीना आना चाहिए.",
ref_audio_path="prompts/PAN_F_HAPPY_00001.wav",
ref_text="ਭਹੰਪੀ ਵਿੱਚ ਸਮਾਰਕਾਂ ਦੇ ਭਵਨ ਨਿਰਮਾਣ ਕਲਾ ਦੇ ਵੇਰਵੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ, ਜੋ ਮੈਨੂੰ ਖੁਸ਼ ਕਰਦੇ ਹਨ।"
)
if audio.dtype == np.int16:
audio = audio.astype(np.float32) / 32768.0
sf.write("namaste.wav", np.array(audio, dtype=np.float32), samplerate=24000)
print("音频保存成功。")
你可以在 这里 找到示例提示音频。
📄 许可证
使用此模型即表示你同意仅对获得明确许可的语音进行克隆。严禁未经授权的语音克隆。任何对该模型的不当使用由用户自行承担责任。
📚 详细文档
参考文献
我们要感谢 F5-TTS 的作者们,感谢他们为这项工作做出的宝贵贡献和提供的灵感。他们的努力对文本转语音合成领域的发展起到了至关重要的作用。
📖 引用
如果你在研究或项目中使用了 IndicF5,请考虑引用它:
🔹 BibTeX
@misc{AI4Bharat_IndicF5_2025,
author = {Praveen S V and Srija Anand and Soma Siddhartha and Mitesh M. Khapra},
title = {IndicF5: High-Quality Text-to-Speech for Indian Languages},
year = {2025},
url = {https://github.com/AI4Bharat/IndicF5},
}