Indri-0.1-350m-tts開源TTS模型 - 支持英印雙語文本高效轉語音

首頁

Indri 0.1 350m Tts

由11mlabs開發

Indri 是一個基於 Transformer 架構的新型、超小型、輕量級 TTS 模型，支持英語和印地語的文本轉語音任務。

語音合成

Transformers

支持多種語言#輕量級TTS #多語言語音合成 #即時音頻生成

下載量 1,088

發布時間 : 11/20/2024

模型概述

該模型將音頻建模為標記，可以生成高質量的音頻，並保持說話者風格的一致性。支持語音克隆和代碼混合文本輸入。

模型特點

小型輕量

基於 GPT-2 中等架構，體積小但性能強大

超快推理

在 RTX6000Ada GPU 上可達 300 toks/s 的生成速度，首次標記時間低於 20ms

語音克隆

支持基於短提示(<5秒)的說話者風格克隆

多語言支持

支持英語和印地語的代碼混合輸入

批量處理

在 RTX6000Ada 上支持約300個序列的批量處理

模型能力

文本轉語音

語音克隆

多語言語音合成

批量語音生成

使用案例

內容創作

有聲讀物生成

為電子書自動生成高質量的有聲版本

提供多種說話者風格選擇

教育內容

為教育材料生成多語言語音內容

支持英語和印地語混合內容

商業應用

語音助手

為應用程序集成自然語音輸出

低延遲響應

廣告內容

快速生成不同風格的廣告語音

支持多種說話者風格

🚀 indri-0.1-350m-tts 語音合成模型

Indri 是一系列能夠進行文本轉語音（TTS）、自動語音識別（ASR）和音頻續寫的音頻模型。本模型是該系列中的中等規模（3.5 億參數）模型，支持兩種語言的 TTS 任務：英語和印地語。

項目鏈接

平臺	鏈接
🌎 在線演示	indrivoice.ai
𝕏 Twitter	@11mlabs_in
🐱 GitHub	Indri 倉庫
🤗 Hugging Face（集合）	Indri 集合
📝 發佈博客	發佈博客

🚀 快速開始

🤗 使用 pipelines 快速上手

使用以下代碼開始使用該模型。Pipelines 是使用該模型的最佳方式。

import torch
import torchaudio
from transformers import pipeline

model_id = '11mlabs/indri-0.1-350m-tts'
task = 'indri-tts'

pipe = pipeline(
    task,
    model=model_id,
    device=torch.device('cuda:0'), # 根據你的硬件進行更新
    trust_remote_code=True
)

output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')

torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)

可用的說話人

說話人 ID	說話人名稱
`[spkr_63]`	🇬🇧 👨 書籍朗讀者
`[spkr_67]`	🇺🇸 👨 網紅
`[spkr_68]`	🇮🇳 👨 書籍朗讀者
`[spkr_69]`	🇮🇳 👨 書籍朗讀者
`[spkr_70]`	🇮🇳 👨 勵志演講者
`[spkr_62]`	🇮🇳 👨 重度書籍朗讀者
`[spkr_53]`	🇮🇳 👩 食譜朗誦者
`[spkr_60]`	🇮🇳 👩 書籍朗讀者
`[spkr_74]`	🇺🇸 👨 書籍朗讀者
`[spkr_75]`	🇮🇳 👨 企業家
`[spkr_76]`	🇬🇧 👨 自然愛好者
`[spkr_77]`	🇮🇳 👨 網紅
`[spkr_66]`	🇮🇳 👨 政治家

自託管服務

git clone https://github.com/cmeraki/indri.git
cd indri
pip install -r requirements.txt

# 安裝 ffmpeg（對於 Mac/Windows，請參考：https://www.ffmpeg.org/download.html）
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y

python -m inference --model_path 11mlabs/indri-0.1-350m-tts --device cuda:0 --port 8000

✨ 主要特性

小巧輕便：基於 GPT - 2 中等架構，該方法可擴展到任何基於自迴歸變壓器的架構。
超快速：使用我們的自託管服務選項，在 RTX6000Ada NVIDIA GPU 上，模型速度可達每秒 300 個令牌（每秒生成 3 秒音頻），且首令牌生成時間低於 20 毫秒。
高併發：在 RTX6000Ada 上，可支持約 300 個序列的批量處理，全上下文長度為 1024 個令牌。
語音克隆：支持使用短提示（<5 秒）進行語音克隆。
多語言混合：支持英語和印地語的代碼混合文本輸入。

📦 安裝指南

克隆倉庫

git clone https://github.com/cmeraki/indri.git
cd indri

安裝依賴

pip install -r requirements.txt

安裝 ffmpeg

# 對於 Mac/Windows，請參考：https://www.ffmpeg.org/download.html
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y

💻 使用示例

基礎用法

import torch
import torchaudio
from transformers import pipeline

model_id = '11mlabs/indri-0.1-350m-tts'
task = 'indri-tts'

pipe = pipeline(
    task,
    model=model_id,
    device=torch.device('cuda:0'), # 根據你的硬件進行更新
    trust_remote_code=True
)

output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')

torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)

📚 詳細文檔

模型詳情

模型描述

indri - 0.1 - 350m - tts 是一個基於變壓器架構的新型超小型輕量級 TTS 模型。它將音頻建模為令牌，並能生成高質量音頻，同時能一致地克隆說話人的風格。

示例音頻

文本	示例音頻
मित्रों, हम आज एक नया छोटा और शक्तिशाली मॉडल रिलीज कर रहे हैं।
भाइयों और बहनों, ये हमारा सौभाग्य है कि हम सब मिलकर इस महान देश को नई ऊंचाइयों पर ले जाने का सपना देख रहे हैं।
Hello दोस्तों, future of speech technology mein अपका स्वागत है
In this model zoo, a new model called Indri has appeared.

詳細信息

屬性	詳情
模型類型	基於 GPT - 2 的語言模型
規模	3.5 億參數
支持語言	英語、印地語
許可證	此模型不可用於商業用途，僅用於研究展示。

🔧 技術細節

該模型的工作原理如下：

將輸入文本轉換為令牌。
在基於 GPT - 2 的變壓器模型上運行自迴歸解碼，生成音頻令牌。
將音頻令牌（使用 Kyutai/mimi）解碼為音頻。

更多關於該模型構建的技術細節，請閱讀我們的博客此處。

📄 許可證

本模型採用 cc - by - sa - 4.0 許可證，且不可用於商業用途，僅用於研究展示。

引用信息

如果您在研究中使用了此模型，請引用：

@misc{indri-multimodal-alm,
  author       = {11mlabs},
  title        = {Indri: Multimodal audio language model},
  year         = {2024},
  publisher    = {GitHub},
  journal      = {GitHub Repository},
  howpublished = {\url{https://github.com/cmeraki/indri}},
  email        = {compute@merakilabs.com}
}

相關 BibTex 引用

nanoGPT

@techreport{kyutai2024moshi,
      title={Moshi: a speech-text foundation model for real-time dialogue},
      author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
      Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
      year={2024},
      eprint={2410.00037},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2410.00037},
}

Whisper

@misc{radford2022whisper,
  doi = {10.48550/ARXIV.2212.04356},
  url = {https://arxiv.org/abs/2212.04356},
  author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
  title = {Robust Speech Recognition via Large-Scale Weak Supervision},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}

silero-vad

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}