Indri-0.1-124m-tts開源TTS模型 - 支持英印雙語文本輕鬆轉語音

Home

Indri 0.1 124m Tts

Developed by 11mlabs

Indri 是一個基於Transformer架構的超小型輕量級TTS模型，支持英語和印地語的文本轉語音任務。

語音合成

Transformers

Supports Multiple Languages#輕量級TTS #多語言混合生成 #語音克隆

Downloads 182

Release Time : 11/12/2024

Model Overview

該模型能夠生成高質量的音頻，並保持說話人風格的克隆一致性，支持通過短提示進行語音克隆。

Model Features

超小型輕量級

基於GPT-2小型架構，僅124M參數，可擴展到任何基於自迴歸Transformer的架構

超快速推理

在RTX6000Ada GPU上可達400 tokens/s速度，首次標記時間低於20ms

語音克隆支持

通過短提示(<5秒)即可實現說話人風格克隆

多語言混合支持

支持英語和印地語的代碼混合文本輸入

Model Capabilities

文本轉語音

語音克隆

多語言混合處理

Use Cases

語音合成

多語言有聲讀物

為英語和印地語內容生成自然語音

高質量音頻輸出，保持說話人一致性

語音助手

為多語言語音助手提供語音合成能力

支持快速響應的語音生成

教育

語言學習工具

為語言學習者提供發音示例

支持雙語混合發音示範

🚀 indri-0.1-124m-tts 語音合成模型

Indri 是一系列能夠進行文本轉語音（TTS）、自動語音識別（ASR）和音頻續寫的音頻模型。本模型 indri-0.1-124m-tts 是該系列中最小的模型（124M），支持兩種語言的 TTS 任務：

英語
印地語

🚀 快速開始

🤗 pipelines

使用以下代碼開始使用該模型。Pipelines 是使用該模型的最佳方式。

import torch
import torchaudio
from transformers import pipeline

model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'

pipe = pipeline(
    task,
    model=model_id,
    device=torch.device('cuda:0'), # 根據你的硬件進行更新
    trust_remote_code=True
)

output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')

torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)

可用的說話人

說話人 ID	說話人名稱
`[spkr_63]`	🇬🇧 👨 書籍朗讀者
`[spkr_67]`	🇺🇸 👨 網紅
`[spkr_68]`	🇮🇳 👨 書籍朗讀者
`[spkr_69]`	🇮🇳 👨 書籍朗讀者
`[spkr_70]`	🇮🇳 👨 勵志演講者
`[spkr_62]`	🇮🇳 👨 資深書籍朗讀者
`[spkr_53]`	🇮🇳 👩 食譜朗讀者
`[spkr_60]`	🇮🇳 👩 書籍朗讀者
`[spkr_74]`	🇺🇸 👨 書籍朗讀者
`[spkr_75]`	🇮🇳 👨 企業家
`[spkr_76]`	🇬🇧 👨 自然愛好者
`[spkr_77]`	🇮🇳 👨 網紅
`[spkr_66]`	🇮🇳 👨 政治家

自託管服務

git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt

# 安裝 ffmpeg（對於 Mac/Windows，參考：https://www.ffmpeg.org/download.html）
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y

python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000

✨ 主要特性

超小體積：基於 GPT - 2 小架構，該方法可擴展到任何基於自迴歸的 Transformer 架構。
超快速度：使用我們的自託管服務選項，在 RTX6000Ada NVIDIA GPU 上，模型速度可達 400 令牌/秒（每秒生成 4 秒音頻），首令牌生成時間低於 20 毫秒。
高併發支持：在 RTX6000Ada 上，它可以支持批量大小約為 1000 個序列，完整上下文長度為 1024 個令牌。
語音克隆：支持使用短提示（<5 秒）進行語音克隆。
多語言混合輸入：支持英語和印地語的代碼混合文本輸入。

📦 安裝指南

自託管服務安裝步驟

git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt

# 安裝 ffmpeg（對於 Mac/Windows，參考：https://www.ffmpeg.org/download.html）
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y

python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000

💻 使用示例

基礎用法

import torch
import torchaudio
from transformers import pipeline

model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'

pipe = pipeline(
    task,
    model=model_id,
    device=torch.device('cuda:0'), # 根據你的硬件進行更新
    trust_remote_code=True
)

output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')

torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)

📚 詳細文檔

模型詳情

模型描述

indri-0.1-124m-tts 是一個基於 Transformer 架構的新型超小、輕量級 TTS 模型。它將音頻建模為令牌，並能生成高質量音頻，同時可以一致地克隆說話人的風格。

示例

文本	示例音頻
मित्रों, हम आज एक नया छोटा और शक्तिशाली मॉडल रिलीज कर रहे हैं।
भाइयों और बहनों, ये हमारा सौभाग्य है कि हम सब मिलकर इस महान देश को नई ऊंचाइयों पर ले जाने का सपना देख रहे हैं।
Hello दोस्तों, future of speech technology mein अपका स्वागत है
In this model zoo, a new model called Indri has appeared.

詳細信息

屬性	詳情
模型類型	基於 GPT - 2 的語言模型
規模	1.24 億參數
語言支持	英語、印地語
許可證	此模型不可用於商業用途，僅用於研究展示。

🔧 技術細節

以下是該模型的簡要工作原理：

將輸入文本轉換為令牌。
在基於 GPT - 2 的 Transformer 模型上運行自迴歸解碼，生成音頻令牌。
將音頻令牌（使用 Kyutai/mimi）解碼為音頻。

請閱讀我們的博客此處，瞭解更多關於該模型構建的技術細節。

📄 許可證

此模型的許可證為 cc - by - sa - 4.0，且不可用於商業用途，僅用於研究展示。

📝 引用信息

如果你在研究中使用此模型，請引用：

@misc{indri-multimodal-alm,
  author       = {11mlabs},
  title        = {Indri: Multimodal audio language model},
  year         = {2024},
  publisher    = {GitHub},
  journal      = {GitHub Repository},
  howpublished = {\url{https://github.com/indri-voice/indri}},
  email        = {apurvagup@gmail.com, romit.73@gmail.com}
}

📚 參考 BibTex

@techreport{kyutai2024moshi,
      title={Moshi: a speech-text foundation model for real-time dialogue},
      author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
      Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
      year={2024},
      eprint={2410.00037},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2410.00037},
}

Whisper

@misc{radford2022whisper,
  doi = {10.48550/ARXIV.2212.04356},
  url = {https://arxiv.org/abs/2212.04356},
  author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
  title = {Robust Speech Recognition via Large-Scale Weak Supervision},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}

silero-vad

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}

🔗 相關鏈接

平臺	鏈接
🌎 在線演示	indrivoice.ai
𝕏 Twitter	@11mlabs_in
🐱 GitHub	Indri 倉庫
🤗 Hugging Face (集合)	Indri 集合
🤗 Hugging Face (空間)	即時服務器
📝 發佈博客	發佈博客