🚀 syv.ai TTS v0.1
TTS v0.1は、私たちの最初のオープンソースのテキスト読み上げモデルです。このモデルは、1000時間以上のデンマーク語の音声データで学習されています。
🚀 クイックスタート
このモデルは、最初に100,000時間の英語データで学習されたLLAMA 3.2 3Bモデルをベースに、デンマーク語に対応するようにさらに学習されています。LLMであるため、vLLM、ollamaなどの一般的な推論フレームワークを使用して推論を実行できます。推論の実装方法については、Orpheusを参照することをおすすめします。
✨ 主な機能
- デンマーク語の音声合成が可能です。
- 一般的な推論フレームワークを使用して推論を実行できます。
📦 インストール
本READMEには具体的なインストール手順が記載されていないため、このセクションを省略します。
💻 使用例
本READMEには具体的なコード例が記載されていないため、このセクションを省略します。
📚 ドキュメント
モデルの詳細
このモデルは、元々LLAMA 3.2 3Bモデルであり、100,000時間の英語データで学習された後、デンマーク語に対応するようにさらに学習されています。
推論の実行
このモデルはLLMであるため、vLLM、ollamaなどの一般的な推論フレームワークを使用して推論を実行できます。推論の実装方法については、Orpheusを参照することをおすすめします。
音声データの募集
通常の会話音声データ(朗読音声でないことが望ましい)をお持ちの方は、ぜひご連絡ください。
ライセンス
個人および研究目的でモデルを使用する場合は、MITライセンスに従います。商用利用の場合は、1クローネのライセンス料を支払う必要があります。詳細なライセンス内容については、LICENSE.txtをご覧ください。
🔧 技術詳細
学習設定
axolotlバージョン: 0.8.0
base_model: syvai/tts-v1-pretrained
hub_model_id: syvai/tts-v1-finetuned
plugins:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true
datasets:
- path: syvai/zac-coral-tts
type:
dataset_prepared_path: last_run_prepared
val_set_size: 0.01
eval_sample_packing: False
output_dir: ./outputs/finetuned
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
wandb_project: orph
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:
gradient_accumulation_steps: 8
micro_batch_size: 4
num_epochs: 3
optimizer: adamw_torch_fused
lr_scheduler: cosine
learning_rate: 2e-5
bf16: auto
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
resume_from_checkpoint:
logging_steps: 1
flash_attention: true
warmup_steps: 3
evals_per_epoch: 5
saves_per_epoch: 5
weight_decay: 0.05
special_tokens:
pad_token: <custom_token_7>
学習ハイパーパラメータ
学習時に使用されたハイパーパラメータは以下の通りです。
パラメータ |
詳細 |
learning_rate |
2e-05 |
train_batch_size |
4 |
eval_batch_size |
4 |
seed |
42 |
gradient_accumulation_steps |
8 |
total_train_batch_size |
32 |
optimizer |
OptimizerNames.ADAMW_TORCH_FUSEDを使用し、betas=(0.9,0.999)、epsilon=1e-08、追加のオプティマイザ引数はありません |
lr_scheduler_type |
cosine |
lr_scheduler_warmup_steps |
3 |
num_epochs |
3.0 |
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
4.9492 |
0.0246 |
1 |
4.8478 |
4.7181 |
0.1969 |
8 |
4.5872 |
4.5871 |
0.3938 |
16 |
4.4631 |
4.557 |
0.5908 |
24 |
4.3972 |
4.4965 |
0.7877 |
32 |
4.3521 |
4.4697 |
0.9846 |
40 |
4.3258 |
4.4525 |
1.1723 |
48 |
4.3083 |
4.4301 |
1.3692 |
56 |
4.2980 |
4.4459 |
1.5662 |
64 |
4.2915 |
4.4382 |
1.7631 |
72 |
4.2893 |
4.4315 |
1.96 |
80 |
4.2866 |
4.4178 |
2.1477 |
88 |
4.2861 |
4.4501 |
2.3446 |
96 |
4.2859 |
4.4121 |
2.5415 |
104 |
4.2856 |
4.4164 |
2.7385 |
112 |
4.2859 |
4.4264 |
2.9354 |
120 |
4.2860 |
フレームワークのバージョン
- Transformers 4.51.3
- Pytorch 2.6.0+cu124
- Datasets 3.5.0
- Tokenizers 0.21.1
📄 ライセンス
個人および研究目的でモデルを使用する場合は、MITライセンスに従います。商用利用の場合は、1クローネのライセンス料を支払う必要があります。詳細なライセンス内容については、LICENSE.txtをご覧ください。