Indri 0.1 124m Tts
Indri 是一個基於Transformer架構的超小型輕量級TTS模型,支持英語和印地語的文本轉語音任務。
下載量 182
發布時間 : 11/12/2024
模型概述
該模型能夠生成高質量的音頻,並保持說話人風格的克隆一致性,支持通過短提示進行語音克隆。
模型特點
超小型輕量級
基於GPT-2小型架構,僅124M參數,可擴展到任何基於自迴歸Transformer的架構
超快速推理
在RTX6000Ada GPU上可達400 tokens/s速度,首次標記時間低於20ms
語音克隆支持
通過短提示(<5秒)即可實現說話人風格克隆
多語言混合支持
支持英語和印地語的代碼混合文本輸入
模型能力
文本轉語音
語音克隆
多語言混合處理
使用案例
語音合成
多語言有聲讀物
為英語和印地語內容生成自然語音
高質量音頻輸出,保持說話人一致性
語音助手
為多語言語音助手提供語音合成能力
支持快速響應的語音生成
教育
語言學習工具
為語言學習者提供發音示例
支持雙語混合發音示範
🚀 indri-0.1-124m-tts 語音合成模型
Indri 是一系列能夠進行文本轉語音(TTS)、自動語音識別(ASR)和音頻續寫的音頻模型。本模型 indri-0.1-124m-tts
是該系列中最小的模型(124M),支持兩種語言的 TTS 任務:
- 英語
- 印地語
🚀 快速開始
🤗 pipelines
使用以下代碼開始使用該模型。Pipelines 是使用該模型的最佳方式。
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0'), # 根據你的硬件進行更新
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')
torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)
可用的說話人
說話人 ID | 說話人名稱 |
---|---|
[spkr_63] |
🇬🇧 👨 書籍朗讀者 |
[spkr_67] |
🇺🇸 👨 網紅 |
[spkr_68] |
🇮🇳 👨 書籍朗讀者 |
[spkr_69] |
🇮🇳 👨 書籍朗讀者 |
[spkr_70] |
🇮🇳 👨 勵志演講者 |
[spkr_62] |
🇮🇳 👨 資深書籍朗讀者 |
[spkr_53] |
🇮🇳 👩 食譜朗讀者 |
[spkr_60] |
🇮🇳 👩 書籍朗讀者 |
[spkr_74] |
🇺🇸 👨 書籍朗讀者 |
[spkr_75] |
🇮🇳 👨 企業家 |
[spkr_76] |
🇬🇧 👨 自然愛好者 |
[spkr_77] |
🇮🇳 👨 網紅 |
[spkr_66] |
🇮🇳 👨 政治家 |
自託管服務
git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt
# 安裝 ffmpeg(對於 Mac/Windows,參考:https://www.ffmpeg.org/download.html)
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000
✨ 主要特性
- 超小體積:基於 GPT - 2 小架構,該方法可擴展到任何基於自迴歸的 Transformer 架構。
- 超快速度:使用我們的自託管服務選項,在 RTX6000Ada NVIDIA GPU 上,模型速度可達 400 令牌/秒(每秒生成 4 秒音頻),首令牌生成時間低於 20 毫秒。
- 高併發支持:在 RTX6000Ada 上,它可以支持批量大小約為 1000 個序列,完整上下文長度為 1024 個令牌。
- 語音克隆:支持使用短提示(<5 秒)進行語音克隆。
- 多語言混合輸入:支持英語和印地語的代碼混合文本輸入。
📦 安裝指南
自託管服務安裝步驟
git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt
# 安裝 ffmpeg(對於 Mac/Windows,參考:https://www.ffmpeg.org/download.html)
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000
💻 使用示例
基礎用法
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0'), # 根據你的硬件進行更新
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')
torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)
📚 詳細文檔
模型詳情
模型描述
indri-0.1-124m-tts
是一個基於 Transformer 架構的新型超小、輕量級 TTS 模型。它將音頻建模為令牌,並能生成高質量音頻,同時可以一致地克隆說話人的風格。
示例
文本 | 示例音頻 |
---|---|
मित्रों, हम आज एक नया छोटा और शक्तिशाली मॉडल रिलीज कर रहे हैं। | |
भाइयों और बहनों, ये हमारा सौभाग्य है कि हम सब मिलकर इस महान देश को नई ऊंचाइयों पर ले जाने का सपना देख रहे हैं। | |
Hello दोस्तों, future of speech technology mein अपका स्वागत है | |
In this model zoo, a new model called Indri has appeared. |
詳細信息
屬性 | 詳情 |
---|---|
模型類型 | 基於 GPT - 2 的語言模型 |
規模 | 1.24 億參數 |
語言支持 | 英語、印地語 |
許可證 | 此模型不可用於商業用途,僅用於研究展示。 |
🔧 技術細節
以下是該模型的簡要工作原理:
- 將輸入文本轉換為令牌。
- 在基於 GPT - 2 的 Transformer 模型上運行自迴歸解碼,生成音頻令牌。
- 將音頻令牌(使用 Kyutai/mimi)解碼為音頻。
請閱讀我們的博客此處,瞭解更多關於該模型構建的技術細節。
📄 許可證
此模型的許可證為 cc - by - sa - 4.0,且不可用於商業用途,僅用於研究展示。
📝 引用信息
如果你在研究中使用此模型,請引用:
@misc{indri-multimodal-alm,
author = {11mlabs},
title = {Indri: Multimodal audio language model},
year = {2024},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {\url{https://github.com/indri-voice/indri}},
email = {apurvagup@gmail.com, romit.73@gmail.com}
}
📚 參考 BibTex
@techreport{kyutai2024moshi,
title={Moshi: a speech-text foundation model for real-time dialogue},
author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
year={2024},
eprint={2410.00037},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2410.00037},
}
@misc{radford2022whisper,
doi = {10.48550/ARXIV.2212.04356},
url = {https://arxiv.org/abs/2212.04356},
author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
title = {Robust Speech Recognition via Large-Scale Weak Supervision},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
🔗 相關鏈接
平臺 | 鏈接 |
---|---|
🌎 在線演示 | indrivoice.ai |
𝕏 Twitter | @11mlabs_in |
🐱 GitHub | Indri 倉庫 |
🤗 Hugging Face (集合) | Indri 集合 |
🤗 Hugging Face (空間) | 即時服務器 |
📝 發佈博客 | 發佈博客 |
Kokoro 82M
Apache-2.0
Kokoro是一款擁有8200萬參數的開源文本轉語音(TTS)模型,以其輕量級架構和高音質著稱,同時具備快速和成本效益高的特點。
語音合成 英語
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的語音生成模型,僅需6秒音頻片段即可實現跨語言音色克隆,支持17種語言。
語音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一個基於流匹配的語音合成模型,專注於流暢且忠實的語音合成,特別適用於童話講述等場景。
語音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠從梅爾頻譜生成高質量音頻波形。
語音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基於LibriTTS數據集微調的SpeechT5語音合成(文本轉語音)模型,支持高質量的文本轉語音轉換。
語音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari實驗室開發的16億參數文本轉語音模型,能夠直接從文本生成高度逼真的對話,支持情感和語調控制,並能生成非語言交流內容。
語音合成
Safetensors 英語
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame開發的10億參數規模語音生成模型,可根據文本和音頻輸入生成RVQ音頻編碼
語音合成
Safetensors 英語
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一個開放權重的小型但功能強大的文本轉語音(TTS)模型系列,新增了來自專業數據集的100名中文說話人數據。
語音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多語言印度語言擴展版本,支持21種語言,包括多種印度語言和英語。
語音合成
Transformers 支持多種語言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
語音合成
Transformers 支持多種語言

B
suno
35.72k
1,326
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98