Indri 0.1 124m Tts
Indri 是一个基于Transformer架构的超小型轻量级TTS模型,支持英语和印地语的文本转语音任务。
下载量 182
发布时间 : 11/12/2024
模型简介
该模型能够生成高质量的音频,并保持说话人风格的克隆一致性,支持通过短提示进行语音克隆。
模型特点
超小型轻量级
基于GPT-2小型架构,仅124M参数,可扩展到任何基于自回归Transformer的架构
超快速推理
在RTX6000Ada GPU上可达400 tokens/s速度,首次标记时间低于20ms
语音克隆支持
通过短提示(<5秒)即可实现说话人风格克隆
多语言混合支持
支持英语和印地语的代码混合文本输入
模型能力
文本转语音
语音克隆
多语言混合处理
使用案例
语音合成
多语言有声读物
为英语和印地语内容生成自然语音
高质量音频输出,保持说话人一致性
语音助手
为多语言语音助手提供语音合成能力
支持快速响应的语音生成
教育
语言学习工具
为语言学习者提供发音示例
支持双语混合发音示范
🚀 indri-0.1-124m-tts 语音合成模型
Indri 是一系列能够进行文本转语音(TTS)、自动语音识别(ASR)和音频续写的音频模型。本模型 indri-0.1-124m-tts
是该系列中最小的模型(124M),支持两种语言的 TTS 任务:
- 英语
- 印地语
🚀 快速开始
🤗 pipelines
使用以下代码开始使用该模型。Pipelines 是使用该模型的最佳方式。
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0'), # 根据你的硬件进行更新
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')
torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)
可用的说话人
说话人 ID | 说话人名称 |
---|---|
[spkr_63] |
🇬🇧 👨 书籍朗读者 |
[spkr_67] |
🇺🇸 👨 网红 |
[spkr_68] |
🇮🇳 👨 书籍朗读者 |
[spkr_69] |
🇮🇳 👨 书籍朗读者 |
[spkr_70] |
🇮🇳 👨 励志演讲者 |
[spkr_62] |
🇮🇳 👨 资深书籍朗读者 |
[spkr_53] |
🇮🇳 👩 食谱朗读者 |
[spkr_60] |
🇮🇳 👩 书籍朗读者 |
[spkr_74] |
🇺🇸 👨 书籍朗读者 |
[spkr_75] |
🇮🇳 👨 企业家 |
[spkr_76] |
🇬🇧 👨 自然爱好者 |
[spkr_77] |
🇮🇳 👨 网红 |
[spkr_66] |
🇮🇳 👨 政治家 |
自托管服务
git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt
# 安装 ffmpeg(对于 Mac/Windows,参考:https://www.ffmpeg.org/download.html)
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000
✨ 主要特性
- 超小体积:基于 GPT - 2 小架构,该方法可扩展到任何基于自回归的 Transformer 架构。
- 超快速度:使用我们的自托管服务选项,在 RTX6000Ada NVIDIA GPU 上,模型速度可达 400 令牌/秒(每秒生成 4 秒音频),首令牌生成时间低于 20 毫秒。
- 高并发支持:在 RTX6000Ada 上,它可以支持批量大小约为 1000 个序列,完整上下文长度为 1024 个令牌。
- 语音克隆:支持使用短提示(<5 秒)进行语音克隆。
- 多语言混合输入:支持英语和印地语的代码混合文本输入。
📦 安装指南
自托管服务安装步骤
git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt
# 安装 ffmpeg(对于 Mac/Windows,参考:https://www.ffmpeg.org/download.html)
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000
💻 使用示例
基础用法
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0'), # 根据你的硬件进行更新
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')
torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)
📚 详细文档
模型详情
模型描述
indri-0.1-124m-tts
是一个基于 Transformer 架构的新型超小、轻量级 TTS 模型。它将音频建模为令牌,并能生成高质量音频,同时可以一致地克隆说话人的风格。
示例
文本 | 示例音频 |
---|---|
मित्रों, हम आज एक नया छोटा और शक्तिशाली मॉडल रिलीज कर रहे हैं। | |
भाइयों और बहनों, ये हमारा सौभाग्य है कि हम सब मिलकर इस महान देश को नई ऊंचाइयों पर ले जाने का सपना देख रहे हैं। | |
Hello दोस्तों, future of speech technology mein अपका स्वागत है | |
In this model zoo, a new model called Indri has appeared. |
详细信息
属性 | 详情 |
---|---|
模型类型 | 基于 GPT - 2 的语言模型 |
规模 | 1.24 亿参数 |
语言支持 | 英语、印地语 |
许可证 | 此模型不可用于商业用途,仅用于研究展示。 |
🔧 技术细节
以下是该模型的简要工作原理:
- 将输入文本转换为令牌。
- 在基于 GPT - 2 的 Transformer 模型上运行自回归解码,生成音频令牌。
- 将音频令牌(使用 Kyutai/mimi)解码为音频。
请阅读我们的博客此处,了解更多关于该模型构建的技术细节。
📄 许可证
此模型的许可证为 cc - by - sa - 4.0,且不可用于商业用途,仅用于研究展示。
📝 引用信息
如果你在研究中使用此模型,请引用:
@misc{indri-multimodal-alm,
author = {11mlabs},
title = {Indri: Multimodal audio language model},
year = {2024},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {\url{https://github.com/indri-voice/indri}},
email = {apurvagup@gmail.com, romit.73@gmail.com}
}
📚 参考 BibTex
@techreport{kyutai2024moshi,
title={Moshi: a speech-text foundation model for real-time dialogue},
author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
year={2024},
eprint={2410.00037},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2410.00037},
}
@misc{radford2022whisper,
doi = {10.48550/ARXIV.2212.04356},
url = {https://arxiv.org/abs/2212.04356},
author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
title = {Robust Speech Recognition via Large-Scale Weak Supervision},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
🔗 相关链接
平台 | 链接 |
---|---|
🌎 在线演示 | indrivoice.ai |
𝕏 Twitter | @11mlabs_in |
🐱 GitHub | Indri 仓库 |
🤗 Hugging Face (集合) | Indri 集合 |
🤗 Hugging Face (空间) | 实时服务器 |
📝 发布博客 | 发布博客 |
Kokoro 82M
Apache-2.0
Kokoro是一款拥有8200万参数的开源文本转语音(TTS)模型,以其轻量级架构和高音质著称,同时具备快速和成本效益高的特点。
语音合成 英语
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的语音生成模型,仅需6秒音频片段即可实现跨语言音色克隆,支持17种语言。
语音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一个基于流匹配的语音合成模型,专注于流畅且忠实的语音合成,特别适用于童话讲述等场景。
语音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
语音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基于LibriTTS数据集微调的SpeechT5语音合成(文本转语音)模型,支持高质量的文本转语音转换。
语音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
语音合成
Safetensors 英语
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
语音合成
Safetensors 英语
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一个开放权重的小型但功能强大的文本转语音(TTS)模型系列,新增了来自专业数据集的100名中文说话人数据。
语音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多语言印度语言扩展版本,支持21种语言,包括多种印度语言和英语。
语音合成
Transformers 支持多种语言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers 支持多种语言

B
suno
35.72k
1,326
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98