🚀 indri-0.1-350m-tts 語音合成模型
Indri 是一系列能夠進行文本轉語音(TTS)、自動語音識別(ASR)和音頻續寫的音頻模型。本模型是該系列中的中等規模(3.5 億參數)模型,支持兩種語言的 TTS 任務:英語和印地語。
項目鏈接
🚀 快速開始
🤗 使用 pipelines 快速上手
使用以下代碼開始使用該模型。Pipelines 是使用該模型的最佳方式。
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-350m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0' ),
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.' ], speaker = '[spkr_63]' )
torchaudio.save('output.wav' , output[0 ]['audio' ][0 ], sample_rate=24000 )
可用的說話人
說話人 ID
說話人名稱
[spkr_63]
🇬🇧 👨 書籍朗讀者
[spkr_67]
🇺🇸 👨 網紅
[spkr_68]
🇮🇳 👨 書籍朗讀者
[spkr_69]
🇮🇳 👨 書籍朗讀者
[spkr_70]
🇮🇳 👨 勵志演講者
[spkr_62]
🇮🇳 👨 重度書籍朗讀者
[spkr_53]
🇮🇳 👩 食譜朗誦者
[spkr_60]
🇮🇳 👩 書籍朗讀者
[spkr_74]
🇺🇸 👨 書籍朗讀者
[spkr_75]
🇮🇳 👨 企業家
[spkr_76]
🇬🇧 👨 自然愛好者
[spkr_77]
🇮🇳 👨 網紅
[spkr_66]
🇮🇳 👨 政治家
自託管服務
git clone https://github.com/cmeraki/indri.git
cd indri
pip install -r requirements.txt
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
python -m inference --model_path 11mlabs/indri-0.1-350m-tts --device cuda:0 --port 8000
✨ 主要特性
小巧輕便 :基於 GPT - 2 中等架構,該方法可擴展到任何基於自迴歸變壓器的架構。
超快速 :使用我們的自託管服務選項 ,在 RTX6000Ada NVIDIA GPU 上,模型速度可達每秒 300 個令牌(每秒生成 3 秒音頻),且首令牌生成時間低於 20 毫秒。
高併發 :在 RTX6000Ada 上,可支持約 300 個序列的批量處理,全上下文長度為 1024 個令牌。
語音克隆 :支持使用短提示(<5 秒)進行語音克隆。
多語言混合 :支持英語和印地語的代碼混合文本輸入。
📦 安裝指南
克隆倉庫
git clone https://github.com/cmeraki/indri.git
cd indri
安裝依賴
pip install -r requirements.txt
安裝 ffmpeg
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
💻 使用示例
基礎用法
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-350m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0' ),
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.' ], speaker = '[spkr_63]' )
torchaudio.save('output.wav' , output[0 ]['audio' ][0 ], sample_rate=24000 )
📚 詳細文檔
模型詳情
模型描述
indri - 0.1 - 350m - tts
是一個基於變壓器架構的新型超小型輕量級 TTS 模型。它將音頻建模為令牌,並能生成高質量音頻,同時能一致地克隆說話人的風格。
示例音頻
文本
示例音頻
मित्रों, हम आज एक नया छोटा और शक्तिशाली मॉडल रिलीज कर रहे हैं।
भाइयों और बहनों, ये हमारा सौभाग्य है कि हम सब मिलकर इस महान देश को नई ऊंचाइयों पर ले जाने का सपना देख रहे हैं।
Hello दोस्तों, future of speech technology mein अपका स्वागत है
In this model zoo, a new model called Indri has appeared.
詳細信息
屬性
詳情
模型類型
基於 GPT - 2 的語言模型
規模
3.5 億參數
支持語言
英語、印地語
許可證
此模型不可用於商業用途,僅用於研究展示。
🔧 技術細節
該模型的工作原理如下:
將輸入文本轉換為令牌。
在基於 GPT - 2 的變壓器模型上運行自迴歸解碼,生成音頻令牌。
將音頻令牌(使用 Kyutai/mimi )解碼為音頻。
更多關於該模型構建的技術細節,請閱讀我們的博客此處 。
📄 許可證
本模型採用 cc - by - sa - 4.0 許可證,且不可用於商業用途,僅用於研究展示。
引用信息
如果您在研究中使用了此模型,請引用:
@misc{indri-multimodal-alm,
author = {11mlabs},
title = {Indri: Multimodal audio language model},
year = {2024},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {\url{https://github.com/cmeraki/indri}},
email = {compute@merakilabs.com}
}
相關 BibTex 引用
nanoGPT
@techreport{kyutai2024moshi,
title={Moshi: a speech-text foundation model for real-time dialogue},
author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
year={2024},
eprint={2410.00037},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2410.00037},
}
Whisper
@misc{radford2022whisper,
doi = {10.48550/ARXIV.2212.04356},
url = {https://arxiv.org/abs/2212.04356},
author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
title = {Robust Speech Recognition via Large-Scale Weak Supervision},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
silero-vad
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}