🚀 indri-0.1-124m-tts 語音合成模型
Indri 是一系列能夠進行文本轉語音(TTS)、自動語音識別(ASR)和音頻續寫的音頻模型。本模型 indri-0.1-124m-tts
是該系列中最小的模型(124M),支持兩種語言的 TTS 任務:
英語
印地語
🚀 快速開始
🤗 pipelines
使用以下代碼開始使用該模型。Pipelines 是使用該模型的最佳方式。
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0' ),
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.' ], speaker = '[spkr_63]' )
torchaudio.save('output.wav' , output[0 ]['audio' ][0 ], sample_rate=24000 )
可用的說話人
說話人 ID
說話人名稱
[spkr_63]
🇬🇧 👨 書籍朗讀者
[spkr_67]
🇺🇸 👨 網紅
[spkr_68]
🇮🇳 👨 書籍朗讀者
[spkr_69]
🇮🇳 👨 書籍朗讀者
[spkr_70]
🇮🇳 👨 勵志演講者
[spkr_62]
🇮🇳 👨 資深書籍朗讀者
[spkr_53]
🇮🇳 👩 食譜朗讀者
[spkr_60]
🇮🇳 👩 書籍朗讀者
[spkr_74]
🇺🇸 👨 書籍朗讀者
[spkr_75]
🇮🇳 👨 企業家
[spkr_76]
🇬🇧 👨 自然愛好者
[spkr_77]
🇮🇳 👨 網紅
[spkr_66]
🇮🇳 👨 政治家
自託管服務
git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000
✨ 主要特性
超小體積 :基於 GPT - 2 小架構,該方法可擴展到任何基於自迴歸的 Transformer 架構。
超快速度 :使用我們的自託管服務選項 ,在 RTX6000Ada NVIDIA GPU 上,模型速度可達 400 令牌/秒(每秒生成 4 秒音頻),首令牌生成時間低於 20 毫秒。
高併發支持 :在 RTX6000Ada 上,它可以支持批量大小約為 1000 個序列,完整上下文長度為 1024 個令牌。
語音克隆 :支持使用短提示(<5 秒)進行語音克隆。
多語言混合輸入 :支持英語和印地語的代碼混合文本輸入。
📦 安裝指南
自託管服務安裝步驟
git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000
💻 使用示例
基礎用法
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0' ),
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.' ], speaker = '[spkr_63]' )
torchaudio.save('output.wav' , output[0 ]['audio' ][0 ], sample_rate=24000 )
📚 詳細文檔
模型詳情
模型描述
indri-0.1-124m-tts
是一個基於 Transformer 架構的新型超小、輕量級 TTS 模型。它將音頻建模為令牌,並能生成高質量音頻,同時可以一致地克隆說話人的風格。
示例
文本
示例音頻
मित्रों, हम आज एक नया छोटा और शक्तिशाली मॉडल रिलीज कर रहे हैं।
भाइयों और बहनों, ये हमारा सौभाग्य है कि हम सब मिलकर इस महान देश को नई ऊंचाइयों पर ले जाने का सपना देख रहे हैं।
Hello दोस्तों, future of speech technology mein अपका स्वागत है
In this model zoo, a new model called Indri has appeared.
詳細信息
屬性
詳情
模型類型
基於 GPT - 2 的語言模型
規模
1.24 億參數
語言支持
英語、印地語
許可證
此模型不可用於商業用途,僅用於研究展示。
🔧 技術細節
以下是該模型的簡要工作原理:
將輸入文本轉換為令牌。
在基於 GPT - 2 的 Transformer 模型上運行自迴歸解碼,生成音頻令牌。
將音頻令牌(使用 Kyutai/mimi )解碼為音頻。
請閱讀我們的博客此處 ,瞭解更多關於該模型構建的技術細節。
📄 許可證
此模型的許可證為 cc - by - sa - 4.0,且不可用於商業用途,僅用於研究展示。
📝 引用信息
如果你在研究中使用此模型,請引用:
@misc{indri-multimodal-alm,
author = {11mlabs},
title = {Indri: Multimodal audio language model},
year = {2024},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {\url{https://github.com/indri-voice/indri}},
email = {apurvagup@gmail.com, romit.73@gmail.com}
}
📚 參考 BibTex
nanoGPT
Kyutai/mimi
@techreport{kyutai2024moshi,
title={Moshi: a speech-text foundation model for real-time dialogue},
author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
year={2024},
eprint={2410.00037},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2410.00037},
}
Whisper
@misc{radford2022whisper,
doi = {10.48550/ARXIV.2212.04356},
url = {https://arxiv.org/abs/2212.04356},
author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
title = {Robust Speech Recognition via Large-Scale Weak Supervision},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
silero-vad
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
🔗 相關鏈接