🚀 IndicF5:面向印度语言的高质量文本转语音模型
IndicF5是一款近乎人类水平的多语言文本转语音(TTS)模型。它基于来自Rasa、IndicTTS、LIMMITS和IndicVoices - R的1417小时高质量语音数据进行训练。该模型支持11种印度语言,包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语,为印度语言的语音合成提供了高质量的解决方案。
数据集信息
属性 |
详情 |
数据集 |
ai4bharat/indicvoices_r、ai4bharat/Rasa |
支持语言 |
阿萨姆语(as)、孟加拉语(bn)、古吉拉特语(gu)、马拉地语(mr)、印地语(hi)、卡纳达语(kn)、马拉雅拉姆语(ml)、奥里亚语(or)、旁遮普语(pa)、泰米尔语(ta)、泰卢固语(te) |
任务类型 |
文本转语音 |
🚀 快速开始
📦 安装指南
conda create -n indicf5 python=3.10 -y
conda activate indicf5
pip install git+https://github.com/ai4bharat/IndicF5.git
💻 使用示例
基础用法
要生成语音,你需要提供三个输入:
- 待合成的文本 – 你希望模型朗读的内容。
- 参考提示音频 – 一个示例语音片段,用于引导模型的韵律和说话者特征。
- 参考提示音频中的文本 – 参考提示音频的文字转录。
from transformers import AutoModel
import numpy as np
import soundfile as sf
repo_id = "ai4bharat/IndicF5"
model = AutoModel.from_pretrained(repo_id, trust_remote_code=True)
audio = model(
"नमस्ते! संगीत की तरह जीवन भी खूबसूरत होता है, बस इसे सही ताल में जीना आना चाहिए.",
ref_audio_path="prompts/PAN_F_HAPPY_00001.wav",
ref_text="ਭਹੰਪੀ ਵਿੱਚ ਸਮਾਰਕਾਂ ਦੇ ਭਵਨ ਨਿਰਮਾਣ ਕਲਾ ਦੇ ਵੇਰਵੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ, ਜੋ ਮੈਨੂੰ ਖੁਸ਼ ਕਰਦੇ ਹਨ।"
)
if audio.dtype == np.int16:
audio = audio.astype(np.float32) / 32768.0
sf.write("namaste.wav", np.array(audio, dtype=np.float32), samplerate=24000)
print("音频保存成功。")
你可以在这里找到示例提示音频。
📄 许可证
使用此模型即表示你同意仅对已获得明确许可的语音进行克隆。严禁未经授权的语音克隆。任何对该模型的不当使用均由用户负责。
📚 参考文献
我们要感谢**[F5 - TTS](https://github.com/SWivid/F5 - TTS)**的作者们,他们的宝贵贡献和启发对本工作起到了至关重要的作用,推动了文本转语音合成领域的发展。
📖 引用信息
如果你在研究或项目中使用了IndicF5,请考虑引用以下内容:
🔹 BibTeX
@misc{AI4Bharat_IndicF5_2025,
author = {Praveen S V and Srija Anand and Soma Siddhartha and Mitesh M. Khapra},
title = {IndicF5: High-Quality Text-to-Speech for Indian Languages},
year = {2025},
url = {https://github.com/AI4Bharat/IndicF5},
}