IndicF5開源多語言文本轉語音模型 - 支持11種印度語言，接近人類發音

首頁

Indicf5

由ai4bharat開發

IndicF5是一個基於1417小時高質量語音數據訓練的接近人類的多語言文本轉語音(TTS)模型，支持11種印度語言。

語音合成

Safetensors

其他#多語言語音合成 #韻律克隆 #印度語種支持

下載量 6,595

發布時間 : 3/11/2025

模型概述

IndicF5是一個高質量的文本轉語音系統，專門為印度語言設計，能夠生成接近人類語音的合成音頻。

模型特點

多語言支持

支持11種印度語言，覆蓋主要印度語系。

高質量語音合成

基於1417小時高質量語音數據訓練，生成接近人類語音的合成音頻。

韻律控制

通過參考提示音頻控制生成語音的韻律和說話人特徵。

模型能力

文本轉語音

多語言語音合成

韻律控制

使用案例

語音助手

多語言語音助手

為印度地區開發支持多種本地語言的語音助手。

提供自然流暢的多語言語音交互體驗。

教育

語言學習工具

為印度語言學習者提供發音示範。

幫助學習者掌握正確的發音和語調。

🚀 印度多語言高質量文本轉語音模型：IndicF5

IndicF5 是一款近乎真人水平的多語言 文本轉語音（TTS） 模型。它基於來自 Rasa、IndicTTS、LIMMITS 和 IndicVoices-R 的 1417 小時高質量語音數據進行訓練。

IndicF5 支持以下 11 種印度語言： 阿薩姆語、孟加拉語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、奧里亞語、旁遮普語、泰米爾語、泰盧固語。

數據集與語言支持

屬性	詳情
數據集	ai4bharat/indicvoices_r、ai4bharat/Rasa
支持語言	阿薩姆語、孟加拉語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、奧里亞語、旁遮普語、泰米爾語、泰盧固語
模型類型	文本轉語音

🚀 快速開始

📦 安裝指南

conda create -n indicf5 python=3.10 -y
conda activate indicf5
pip install git+https://github.com/ai4bharat/IndicF5.git

💻 使用示例

基礎用法

要生成語音，你需要提供三個輸入：

待合成的文本：你希望模型朗讀的內容。
參考提示音頻：一個示例語音片段，用於引導模型的韻律和說話者特徵。
參考提示音頻中的文本：參考提示音頻的文字轉錄。

from transformers import AutoModel
import numpy as np
import soundfile as sf

# 從 Hugging Face 加載 IndicF5
repo_id = "ai4bharat/IndicF5"
model = AutoModel.from_pretrained(repo_id, trust_remote_code=True)

# 生成語音
audio = model(
    "नमस्ते! संगीत की तरह जीवन भी खूबसूरत होता है, बस इसे सही ताल में जीना आना चाहिए.",
    ref_audio_path="prompts/PAN_F_HAPPY_00001.wav",
    ref_text="ਭਹੰਪੀ ਵਿੱਚ ਸਮਾਰਕਾਂ ਦੇ ਭਵਨ ਨਿਰਮਾਣ ਕਲਾ ਦੇ ਵੇਰਵੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ, ਜੋ ਮੈਨੂੰ ਖੁਸ਼ ਕਰਦੇ  ਹਨ।"
)

# 歸一化並保存輸出
if audio.dtype == np.int16:
    audio = audio.astype(np.float32) / 32768.0
sf.write("namaste.wav", np.array(audio, dtype=np.float32), samplerate=24000)
print("音頻保存成功。")

你可以在這裡找到示例提示音頻。

📄 許可證

使用此模型即表示你同意僅對獲得明確許可的語音進行克隆。嚴禁未經授權的語音克隆。任何對該模型的不當使用由用戶自行承擔責任。

📚 詳細文檔

參考文獻

我們要感謝 F5-TTS 的作者們，感謝他們為這項工作做出的寶貴貢獻和提供的靈感。他們的努力對文本轉語音合成領域的發展起到了至關重要的作用。

📖 引用

如果你在研究或項目中使用了 IndicF5，請考慮引用它：

🔹 BibTeX

@misc{AI4Bharat_IndicF5_2025,
  author       = {Praveen S V and Srija Anand and Soma Siddhartha and Mitesh M. Khapra},
  title        = {IndicF5: High-Quality Text-to-Speech for Indian Languages},
  year         = {2025},
  url          = {https://github.com/AI4Bharat/IndicF5},
}