MMS TTS THAI FEMALEV1
M
MMS TTS THAI FEMALEV1
VIZINTZORによって開発
これはタイ語女性音声のテキスト読み上げ(TTS)モデルで、VITSアーキテクチャを微調整しており、高品質なタイ語音声合成をサポートします。
ダウンロード数 81
リリース時間 : 1/21/2025
モデル概要
このモデルはタイ語テキスト読み上げ専用のニューラルネットワークモデルで、タイ語テキストを自然で流暢な女性音声に変換できます。
モデル特徴
高品質タイ語音声合成
自然で流暢なタイ語女性音声を生成可能
VITSアーキテクチャ採用
先進的なエンドツーエンドテキスト読み上げアーキテクチャを使用し、変分推論と敵対的学習を組み合わせ
使いやすさ
シンプルなPythonインターフェースを提供し、数行のコードで音声合成を実現
モデル能力
タイ語テキスト読み上げ
高品質音声合成
使用事例
音声アプリケーション
音声アシスタント
タイ語音声アシスタントに自然な音声出力を提供
自然で流暢なタイ語女性音声を生成
オーディオブック
タイ語テキストコンテンツを音声に変換
オーディオブックに適した高品質音声を生成
## 🚀 テキスト読み上げモデル(タイ語)
このモデルは、Play.ht(https://play.ht/) から録音した音声を使用してモデルをファインチューニングしています。
## 🚀 クイックスタート
このモデルは、タイ語のテキストを音声に変換するためのものです。以下に、モデルのファインチューニングと使用方法について説明します。
## 📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。具体的なインストール手順は、各リポジトリのREADMEを参照してください。
- ファインチューニングコード: [GitHub](https://github.com/VYNCX/finetune-local-vits)
- Google Colabでのトレーニング: [Finetune-colab](https://colab.research.google.com/drive/12qbpHnu7wYiTEoqh6_57_KUjp4gJkx2h?usp=sharing)
- ローカルコンピュータでの使用: [GitHub](https://github.com/VYNCX/VachanaTTS)
## 💻 使用例
### 基本的な使用法
```python
import torch
from transformers import VitsTokenizer, VitsModel, set_seed
import scipy
tokenizer = VitsTokenizer.from_pretrained("VIZINTZOR/VIZINTZOR/MMS-TTS-THAI-FEMALEV1",cache_dir="./mms")
model = VitsModel.from_pretrained("VIZINTZOR/VIZINTZOR/MMS-TTS-THAI-FEMALEV1",cache_dir="./mms")
inputs = tokenizer(text="สวัสดีค่ะ นี่คือเสียงพูดภาษาไทย", return_tensors="pt")
set_seed(456) # make deterministic
with torch.no_grad():
outputs = model(**inputs)
waveform = outputs.waveform[0]
# Convert PyTorch tensor to NumPy array
waveform_array = waveform.numpy()
scipy.io.wavfile.write("techno_output.wav", rate=model.config.sampling_rate, data=waveform_array)
Kokoro 82M
Apache-2.0
Kokoroは8200万のパラメータを持つオープンソースのテキスト読み上げ(TTS)モデルで、軽量なアーキテクチャと高音質で知られ、高速かつコスト効率が高いという特徴があります。
音声合成 英語
K
hexgrad
2.0M
4,155
XTTS V2
その他
ⓍTTSは革新的な音声生成モデルで、わずか6秒の音声サンプルでクロスランゲージ音声クローンを実現し、17言語をサポートします。
音声合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTSはストリームマッチングに基づく音声合成モデルで、流暢かつ忠実な音声合成に特化しており、特に童話の朗読などのシナリオに適しています。
音声合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、メルスペクトログラムから高品質なオーディオ波形を生成できます。
音声合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
LibriTTSデータセットでファインチューニングされたSpeechT5音声合成(テキスト読み上げ)モデルで、高品質なテキスト読み上げ変換をサポートします。
音声合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。
音声合成
Safetensors 英語
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSMはSesameが開発した10億パラメータ規模の音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成可能
音声合成
Safetensors 英語
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoroはオープンウェイトの小型ながら強力なテキスト読み上げ(TTS)モデルシリーズで、専門データセットから100名の中国語話者データを追加しました。
音声合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS は Parler-TTS Mini の多言語インド語拡張版で、21言語をサポートし、複数のインド言語と英語を含みます。
音声合成
Transformers 複数言語対応

I
ai4bharat
43.59k
124
Bark
MIT
BarkはSunoによって作成されたTransformerベースのテキストからオーディオへのモデルで、非常にリアルな多言語音声、音楽、背景ノイズ、シンプルな音響効果を生成できます。
音声合成
Transformers 複数言語対応

B
suno
35.72k
1,326
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98