Indri-0.1-124m-ttsオープンソースTTSモデル - 英語とインド語の両方のテキストを簡単に音声に変換できます

ホーム

Indri 0.1 124m Tts

11mlabsによって開発

IndriはTransformerアーキテクチャに基づく超小型軽量級TTSモデルで、英語とヒンディー語のテキスト読み上げタスクをサポートします。

音声合成

Transformers

複数言語対応#軽量級TTS #多言語混合生成 #音声クローン

ダウンロード数 182

リリース時間 : 11/12/2024

モデル概要

このモデルは高品質な音声を生成でき、話者のスタイルクローン一貫性を維持し、短いプロンプトによる音声クローンをサポートします。

モデル特徴

超小型軽量級

GPT-2小型アーキテクチャベースで124Mパラメータのみ、自己回帰型Transformerベースのあらゆるアーキテクチャに拡張可能

超高速推論

RTX6000Ada GPUで400 tokens/sの速度を達成、初回トークン時間20ms未満

音声クローンサポート

短いプロンプト(<5秒)で話者スタイルクローンを実現

多言語混合サポート

英語とヒンディー語のコード混合テキスト入力をサポート

モデル能力

テキスト読み上げ

音声クローン

多言語混合処理

使用事例

音声合成

多言語オーディオブック

英語とヒンディー語コンテンツの自然な音声を生成

高品質な音声出力、話者一貫性を維持

音声アシスタント

多言語音声アシスタントに音声合成機能を提供

高速応答の音声生成をサポート

教育

言語学習ツール

言語学習者に発音例を提供

バイリンガル混合発音デモをサポート

🚀 indri-0.1-124m-tts

Indriは、テキスト読み上げ（TTS）、自動音声認識（ASR）、音声続き生成が可能な一連の音声モデルです。このモデルは、当シリーズの中で最も小規模（124M）で、英語とヒンディー語の2言語のTTSタスクをサポートしています。

🚀 クイックスタート

🤗 pipelines

以下のコードを使用して、モデルを使い始めることができます。パイプラインは、モデルを使い始める最良の方法です。

import torch
import torchaudio
from transformers import pipeline

model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'

pipe = pipeline(
    task,
    model=model_id,
    device=torch.device('cuda:0'), # Update this based on your hardware,
    trust_remote_code=True
)

output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')

torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)

利用可能な話者

話者ID	話者名
`[spkr_63]`	🇬🇧 👨 本の読み手
`[spkr_67]`	🇺🇸 👨 インフルエンサー
`[spkr_68]`	🇮🇳 👨 本の読み手
`[spkr_69]`	🇮🇳 👨 本の読み手
`[spkr_70]`	🇮🇳 👨 モチベーションスピーカー
`[spkr_62]`	🇮🇳 👨 本の読み手（重い口調）
`[spkr_53]`	🇮🇳 👩 レシピの読み手
`[spkr_60]`	🇮🇳 👩 本の読み手
`[spkr_74]`	🇺🇸 👨 本の読み手
`[spkr_75]`	🇮🇳 👨 起業家
`[spkr_76]`	🇬🇧 👨 自然愛好家
`[spkr_77]`	🇮🇳 👨 インフルエンサー
`[spkr_66]`	🇮🇳 👨 政治家

セルフホストサービス

git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt

# Install ffmpeg (for Mac/Windows, refer here: https://www.ffmpeg.org/download.html)
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y

python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000

✨ 主な機能

非常に小規模で、GPT - 2の小規模アーキテクチャに基づいています。この手法は、任意の自己回帰型トランスフォーマーベースのアーキテクチャに拡張可能です。
超高速です。セルフホストサービスオプションを使用すると、RTX6000Ada NVIDIA GPUで最大400トークン/秒（1秒あたり4秒の音声生成）の速度を達成でき、最初のトークンまでの時間は20ms未満です。
RTX6000Adaでは、1024トークンの全コンテキスト長で約1000シーケンスのバッチサイズをサポートできます。
短いプロンプト（<5秒）での声のクローニングをサポートしています。
英語とヒンディー語の2言語のコードミキシングテキスト入力をサポートしています。

📦 インストール

セルフホストサービス

git clone https://github.com/indri-voice/indri.git
cd indri
pip install -r requirements.txt

# Install ffmpeg (for Mac/Windows, refer here: https://www.ffmpeg.org/download.html)
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y

python -m inference --model_path 11mlabs/indri-0.1-124m-tts --device cuda:0 --port 8000

💻 使用例

基本的な使用法

import torch
import torchaudio
from transformers import pipeline

model_id = '11mlabs/indri-0.1-124m-tts'
task = 'indri-tts'

pipe = pipeline(
    task,
    model=model_id,
    device=torch.device('cuda:0'), # Update this based on your hardware,
    trust_remote_code=True
)

output = pipe(['Hi, my name is Indri and I like to talk.'], speaker = '[spkr_63]')

torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)

📚 ドキュメント

モデルの詳細

モデルの説明

indri-0.1-124m-ttsは、トランスフォーマーアーキテクチャに基づく、新しい超小型で軽量なTTSモデルです。このモデルは、音声をトークンとしてモデル化し、話者のスタイルを一貫してクローニングした高品質な音声を生成することができます。

サンプル

テキスト	サンプル
ミトロン、ハムアジエクナヤチョタアウルシャクティシャーリモデルリリージカララヘハイ。
バイヨンアウルバハノン、イエハマーサウバーギヤハイキハムサブミルカーイスマハーンデシュコナイウンチャイヨンパーレジャーカスパナデクラヘハイ。
Hello ドストン、future of speech technology mein アパカスワーガットハイ
In this model zoo, a new model called Indri has appeared.

詳細

属性	详情
モデルタイプ	GPT - 2ベースの言語モデル
パラメータ数	124M
言語サポート	英語、ヒンディー語
ライセンス	このモデルは商用利用できません。研究用の展示のみです。

🔧 技術詳細

このモデルの動作原理の概要は以下の通りです。

入力テキストをトークンに変換します。
GPT - 2ベースのトランスフォーマーモデルで自己回帰的なデコードを実行し、音声トークンを生成します。
音声トークンを（Kyutai/mimiを使用して）音声にデコードします。

モデルの構築に関する詳細な技術情報については、こちらのブログをご覧ください。

📄 ライセンス

このモデルは商用利用できません。これは研究用の展示のみです。

参考情報

引用

このモデルを研究で使用する場合は、以下のように引用してください。

@misc{indri-multimodal-alm,
  author       = {11mlabs},
  title        = {Indri: Multimodal audio language model},
  year         = {2024},
  publisher    = {GitHub},
  journal      = {GitHub Repository},
  howpublished = {\url{https://github.com/indri-voice/indri}},
  email        = {apurvagup@gmail.com, romit.73@gmail.com}
}

BibTex

@techreport{kyutai2024moshi,
      title={Moshi: a speech-text foundation model for real-time dialogue},
      author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
      Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
      year={2024},
      eprint={2410.00037},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2410.00037},
}

Whisper

@misc{radford2022whisper,
  doi = {10.48550/ARXIV.2212.04356},
  url = {https://arxiv.org/abs/2212.04356},
  author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
  title = {Robust Speech Recognition via Large-Scale Weak Supervision},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}

silero-vad

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}

プラットフォーム	リンク
🌎 ライブデモ	indrivoice.ai
𝕏 Twitter	@11mlabs_in
🐱 GitHub	Indri Repository
🤗 Hugging Face (Collection)	Indri collection
🤗 Hugging Face (Spaces)	Live Server
📝 リリースブログ	Release Blog

Indri 0.1 124m Tts

モデル概要

モデル特徴

モデル能力

使用事例

🚀 indri-0.1-124m-tts

🚀 クイックスタート

🤗 pipelines

セルフホストサービス

✨ 主な機能

📦 インストール

セルフホストサービス

💻 使用例

基本的な使用法

📚 ドキュメント

モデルの詳細

モデルの説明

サンプル

詳細

🔧 技術詳細

📄 ライセンス

参考情報

引用

BibTex

関連リンク