IndicF5开源多语言文本转语音模型 - 支持11种印度语言，接近人类发音

首页

Indicf5

由 ai4bharat 开发

IndicF5是一个基于1417小时高质量语音数据训练的接近人类的多语言文本转语音(TTS)模型，支持11种印度语言。

语音合成

Safetensors

其他#多语言语音合成 #韵律克隆 #印度语种支持

下载量 6,595

发布时间 : 3/11/2025

模型简介

IndicF5是一个高质量的文本转语音系统，专门为印度语言设计，能够生成接近人类语音的合成音频。

模型特点

多语言支持

支持11种印度语言，覆盖主要印度语系。

高质量语音合成

基于1417小时高质量语音数据训练，生成接近人类语音的合成音频。

韵律控制

通过参考提示音频控制生成语音的韵律和说话人特征。

模型能力

文本转语音

多语言语音合成

韵律控制

使用案例

语音助手

多语言语音助手

为印度地区开发支持多种本地语言的语音助手。

提供自然流畅的多语言语音交互体验。

教育

语言学习工具

为印度语言学习者提供发音示范。

帮助学习者掌握正确的发音和语调。

🚀 印度多语言高质量文本转语音模型：IndicF5

IndicF5 是一款近乎真人水平的多语言 文本转语音（TTS） 模型。它基于来自 Rasa、IndicTTS、LIMMITS 和 IndicVoices-R 的 1417 小时高质量语音数据进行训练。

IndicF5 支持以下 11 种印度语言： 阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语。

数据集与语言支持

属性	详情
数据集	ai4bharat/indicvoices_r、ai4bharat/Rasa
支持语言	阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语
模型类型	文本转语音

🚀 快速开始

📦 安装指南

conda create -n indicf5 python=3.10 -y
conda activate indicf5
pip install git+https://github.com/ai4bharat/IndicF5.git

💻 使用示例

基础用法

要生成语音，你需要提供三个输入：

待合成的文本：你希望模型朗读的内容。
参考提示音频：一个示例语音片段，用于引导模型的韵律和说话者特征。
参考提示音频中的文本：参考提示音频的文字转录。

from transformers import AutoModel
import numpy as np
import soundfile as sf

# 从 Hugging Face 加载 IndicF5
repo_id = "ai4bharat/IndicF5"
model = AutoModel.from_pretrained(repo_id, trust_remote_code=True)

# 生成语音
audio = model(
    "नमस्ते! संगीत की तरह जीवन भी खूबसूरत होता है, बस इसे सही ताल में जीना आना चाहिए.",
    ref_audio_path="prompts/PAN_F_HAPPY_00001.wav",
    ref_text="ਭਹੰਪੀ ਵਿੱਚ ਸਮਾਰਕਾਂ ਦੇ ਭਵਨ ਨਿਰਮਾਣ ਕਲਾ ਦੇ ਵੇਰਵੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ, ਜੋ ਮੈਨੂੰ ਖੁਸ਼ ਕਰਦੇ  ਹਨ।"
)

# 归一化并保存输出
if audio.dtype == np.int16:
    audio = audio.astype(np.float32) / 32768.0
sf.write("namaste.wav", np.array(audio, dtype=np.float32), samplerate=24000)
print("音频保存成功。")

你可以在这里找到示例提示音频。

📄 许可证

使用此模型即表示你同意仅对获得明确许可的语音进行克隆。严禁未经授权的语音克隆。任何对该模型的不当使用由用户自行承担责任。

📚 详细文档

参考文献

我们要感谢 F5-TTS 的作者们，感谢他们为这项工作做出的宝贵贡献和提供的灵感。他们的努力对文本转语音合成领域的发展起到了至关重要的作用。

📖 引用

如果你在研究或项目中使用了 IndicF5，请考虑引用它：

🔹 BibTeX

@misc{AI4Bharat_IndicF5_2025,
  author       = {Praveen S V and Srija Anand and Soma Siddhartha and Mitesh M. Khapra},
  title        = {IndicF5: High-Quality Text-to-Speech for Indian Languages},
  year         = {2025},
  url          = {https://github.com/AI4Bharat/IndicF5},
}