tts-v1-finetunedオープンソーステキスト・トゥ・スピーチモデル - 自然対話シーンのデンマーク語音声合成

ホーム

Tts V1 Finetuned

syvaiによって開発

1000時間以上のデンマーク語データでトレーニングされたテキスト読み上げモデル、自然な会話シーンの音声合成をサポート

音声合成

Transformers

#デンマーク語TTS #LLAMAアーキテクチャ #自然な会話合成

ダウンロード数 84

リリース時間 : 4/25/2025

モデル概要

初のオープンソーステキスト読み上げモデル、デンマーク語に最適化、LLAMA 3.2 3Bアーキテクチャを採用、主要な推論フレームワークでデプロイ可能

モデル特徴

デンマーク語最適化

デンマーク語に特化して微調整、自然な会話シーンの音声合成をサポート

LLMアーキテクチャ互換性

LLAMAアーキテクチャを採用、vLLM、ollamaなどの主要推論フレームワークでデプロイ可能

長いシーケンス処理

8192長のシーケンス処理をサポート、長文の音声合成に適している

効率的なトレーニング設定

フラッシュアテンション、勾配チェックポイントなどの最適化技術でトレーニング効率を向上

モデル能力

デンマーク語テキスト読み上げ

長文音声合成

自然な会話スタイルの音声生成

使用事例

音声インタラクションシステム

デンマーク語音声アシスタント

デンマーク語圏向け音声インタラクションアシスタントの開発

アクセシビリティサービス

テキスト読み上げサービス

視覚障害者向けデンマーク語コンテンツ読み上げ

🚀 syv.ai TTS v0.1

TTS v0.1は、私たちの最初のオープンソースのテキスト読み上げモデルです。このモデルは、1000時間以上のデンマーク語の音声データで学習されています。

🚀 クイックスタート

このモデルは、最初に100,000時間の英語データで学習されたLLAMA 3.2 3Bモデルをベースに、デンマーク語に対応するようにさらに学習されています。LLMであるため、vLLM、ollamaなどの一般的な推論フレームワークを使用して推論を実行できます。推論の実装方法については、Orpheusを参照することをおすすめします。

✨ 主な機能

デンマーク語の音声合成が可能です。
一般的な推論フレームワークを使用して推論を実行できます。

📦 インストール

本READMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

本READMEには具体的なコード例が記載されていないため、このセクションを省略します。

📚 ドキュメント

モデルの詳細

このモデルは、元々LLAMA 3.2 3Bモデルであり、100,000時間の英語データで学習された後、デンマーク語に対応するようにさらに学習されています。

推論の実行

このモデルはLLMであるため、vLLM、ollamaなどの一般的な推論フレームワークを使用して推論を実行できます。推論の実装方法については、Orpheusを参照することをおすすめします。

音声データの募集

通常の会話音声データ（朗読音声でないことが望ましい）をお持ちの方は、ぜひご連絡ください。

ライセンス

個人および研究目的でモデルを使用する場合は、MITライセンスに従います。商用利用の場合は、1クローネのライセンス料を支払う必要があります。詳細なライセンス内容については、LICENSE.txtをご覧ください。

🔧 技術詳細

学習設定

axolotlバージョン: 0.8.0

base_model: syvai/tts-v1-pretrained
# Automatically upload checkpoint and final model to HF
hub_model_id: syvai/tts-v1-finetuned

plugins:
  - axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true

datasets:
  - path: syvai/zac-coral-tts
    type: 
dataset_prepared_path: last_run_prepared
val_set_size: 0.01
eval_sample_packing: False
output_dir: ./outputs/finetuned

sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true

wandb_project: orph
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:

gradient_accumulation_steps: 8
micro_batch_size: 4
num_epochs: 3
optimizer: adamw_torch_fused
lr_scheduler: cosine
learning_rate: 2e-5

bf16: auto
tf32: false

gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: false
resume_from_checkpoint:
logging_steps: 1
flash_attention: true

warmup_steps: 3
evals_per_epoch: 5
saves_per_epoch: 5
weight_decay: 0.05

special_tokens:
  pad_token: <custom_token_7>

学習ハイパーパラメータ

学習時に使用されたハイパーパラメータは以下の通りです。

パラメータ	詳細
learning_rate	2e-05
train_batch_size	4
eval_batch_size	4
seed	42
gradient_accumulation_steps	8
total_train_batch_size	32
optimizer	OptimizerNames.ADAMW_TORCH_FUSEDを使用し、betas=(0.9,0.999)、epsilon=1e-08、追加のオプティマイザ引数はありません
lr_scheduler_type	cosine
lr_scheduler_warmup_steps	3
num_epochs	3.0

学習結果

学習損失	エポック	ステップ	検証損失
4.9492	0.0246	1	4.8478
4.7181	0.1969	8	4.5872
4.5871	0.3938	16	4.4631
4.557	0.5908	24	4.3972
4.4965	0.7877	32	4.3521
4.4697	0.9846	40	4.3258
4.4525	1.1723	48	4.3083
4.4301	1.3692	56	4.2980
4.4459	1.5662	64	4.2915
4.4382	1.7631	72	4.2893
4.4315	1.96	80	4.2866
4.4178	2.1477	88	4.2861
4.4501	2.3446	96	4.2859
4.4121	2.5415	104	4.2856
4.4164	2.7385	112	4.2859
4.4264	2.9354	120	4.2860