Indri-0.1-124m-tts开源TTS模型 - 支持英印双语文本轻松转语音

首页

Indri 0.1 124m Tts

由 11mlabs 开发

Indri 是一个基于Transformer架构的超小型轻量级TTS模型，支持英语和印地语的文本转语音任务。

语音合成

Transformers

支持多种语言#轻量级TTS #多语言混合生成 #语音克隆

下载量 182

发布时间 : 11/12/2024

模型简介

该模型能够生成高质量的音频，并保持说话人风格的克隆一致性，支持通过短提示进行语音克隆。

模型特点

超小型轻量级

基于GPT-2小型架构，仅124M参数，可扩展到任何基于自回归Transformer的架构

超快速推理

在RTX6000Ada GPU上可达400 tokens/s速度，首次标记时间低于20ms

语音克隆支持

通过短提示(<5秒)即可实现说话人风格克隆

多语言混合支持

支持英语和印地语的代码混合文本输入

模型能力

文本转语音

语音克隆

多语言混合处理

使用案例

语音合成

多语言有声读物

为英语和印地语内容生成自然语音

高质量音频输出，保持说话人一致性

语音助手

为多语言语音助手提供语音合成能力

支持快速响应的语音生成

教育

语言学习工具

为语言学习者提供发音示例

支持双语混合发音示范

🚀 indri-0.1-124m-tts 语音合成模型

Indri 是一系列能够进行文本转语音（TTS）、自动语音识别（ASR）和音频续写的音频模型。本模型 indri-0.1-124m-tts 是该系列中最小的模型（124M），支持两种语言的 TTS 任务：

英语
印地语

🚀 快速开始

🤗 pipelines

使用以下代码开始使用该模型。Pipelines 是使用该模型的最佳方式。

import torch
import torchaudio
from transformers import pipeline

model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'

pipe = pipeline(
    task,
    model=model_id,
    device=torch.device('cuda:0'), # 根据你的硬件进行更新
    trust_remote_code=True
)

output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')

torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)

可用的说话人

说话人 ID	说话人名称
`[spkr_63]`	🇬🇧 👨 书籍朗读者
`[spkr_67]`	🇺🇸 👨 网红
`[spkr_68]`	🇮🇳 👨 书籍朗读者
`[spkr_69]`	🇮🇳 👨 书籍朗读者
`[spkr_70]`	🇮🇳 👨 励志演讲者
`[spkr_62]`	🇮🇳 👨 资深书籍朗读者
`[spkr_53]`	🇮🇳 👩 食谱朗读者
`[spkr_60]`	🇮🇳 👩 书籍朗读者
`[spkr_74]`	🇺🇸 👨 书籍朗读者
`[spkr_75]`	🇮🇳 👨 企业家
`[spkr_76]`	🇬🇧 👨 自然爱好者
`[spkr_77]`	🇮🇳 👨 网红
`[spkr_66]`	🇮🇳 👨 政治家

自托管服务

git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt

# 安装 ffmpeg（对于 Mac/Windows，参考：https://www.ffmpeg.org/download.html）
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y

python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000

✨ 主要特性

超小体积：基于 GPT - 2 小架构，该方法可扩展到任何基于自回归的 Transformer 架构。
超快速度：使用我们的自托管服务选项，在 RTX6000Ada NVIDIA GPU 上，模型速度可达 400 令牌/秒（每秒生成 4 秒音频），首令牌生成时间低于 20 毫秒。
高并发支持：在 RTX6000Ada 上，它可以支持批量大小约为 1000 个序列，完整上下文长度为 1024 个令牌。
语音克隆：支持使用短提示（<5 秒）进行语音克隆。
多语言混合输入：支持英语和印地语的代码混合文本输入。

📦 安装指南

自托管服务安装步骤

git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt

# 安装 ffmpeg（对于 Mac/Windows，参考：https://www.ffmpeg.org/download.html）
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y

python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000

💻 使用示例

基础用法

import torch
import torchaudio
from transformers import pipeline

model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'

pipe = pipeline(
    task,
    model=model_id,
    device=torch.device('cuda:0'), # 根据你的硬件进行更新
    trust_remote_code=True
)

output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')

torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)

📚 详细文档

模型详情

模型描述

indri-0.1-124m-tts 是一个基于 Transformer 架构的新型超小、轻量级 TTS 模型。它将音频建模为令牌，并能生成高质量音频，同时可以一致地克隆说话人的风格。

示例

文本	示例音频
मित्रों, हम आज एक नया छोटा और शक्तिशाली मॉडल रिलीज कर रहे हैं।
भाइयों और बहनों, ये हमारा सौभाग्य है कि हम सब मिलकर इस महान देश को नई ऊंचाइयों पर ले जाने का सपना देख रहे हैं।
Hello दोस्तों, future of speech technology mein अपका स्वागत है
In this model zoo, a new model called Indri has appeared.

详细信息

属性	详情
模型类型	基于 GPT - 2 的语言模型
规模	1.24 亿参数
语言支持	英语、印地语
许可证	此模型不可用于商业用途，仅用于研究展示。

🔧 技术细节

以下是该模型的简要工作原理：

将输入文本转换为令牌。
在基于 GPT - 2 的 Transformer 模型上运行自回归解码，生成音频令牌。
将音频令牌（使用 Kyutai/mimi）解码为音频。

请阅读我们的博客此处，了解更多关于该模型构建的技术细节。

📄 许可证

此模型的许可证为 cc - by - sa - 4.0，且不可用于商业用途，仅用于研究展示。

📝 引用信息

如果你在研究中使用此模型，请引用：

@misc{indri-multimodal-alm,
  author       = {11mlabs},
  title        = {Indri: Multimodal audio language model},
  year         = {2024},
  publisher    = {GitHub},
  journal      = {GitHub Repository},
  howpublished = {\url{https://github.com/indri-voice/indri}},
  email        = {apurvagup@gmail.com, romit.73@gmail.com}
}

📚 参考 BibTex

@techreport{kyutai2024moshi,
      title={Moshi: a speech-text foundation model for real-time dialogue},
      author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
      Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
      year={2024},
      eprint={2410.00037},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2410.00037},
}

Whisper

@misc{radford2022whisper,
  doi = {10.48550/ARXIV.2212.04356},
  url = {https://arxiv.org/abs/2212.04356},
  author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
  title = {Robust Speech Recognition via Large-Scale Weak Supervision},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}

silero-vad

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}

🔗 相关链接

平台	链接
🌎 在线演示	indrivoice.ai
𝕏 Twitter	@11mlabs_in
🐱 GitHub	Indri 仓库
🤗 Hugging Face (集合)	Indri 集合
🤗 Hugging Face (空间)	实时服务器
📝 发布博客	发布博客