Kartoffel_Orpheus-3B_german_natural-v0.1オープンソースモデル - ドイツ語テキストをリアルな自然な音声に変換する

ホーム

Kartoffel Orpheus 3B German Natural V0.1

SebastianBodzaによって開発

Orpheus-3Bをベースにしたドイツ語テキスト読み上げ(TTS)モデルで、主に自然な人間の音声録音で微調整されており、リアルな音声を実現することを目的としています。

音声合成

Transformers

複数言語対応#ドイツ語TTS #マルチスピーカー対応 #自然な音声合成

ダウンロード数 551

リリース時間 : 4/5/2025

モデル概要

これはドイツ語テキスト読み上げ(TTS)モデルのシリーズで、ナチュラル版と合成版の2つの主要バージョンを提供します。ナチュラル版は主に自然な人間の音声録音で微調整されており、リアルな音声を実現することを目的としています。

モデル特徴

マルチスピーカー対応

モデルは事前定義されたスピーカーの中から異なる話者を選択して音声を生成でき、複数の男性・女性話者を含みます。

自然な音色

主に自然な人間の音声録音で微調整されており、リアルな音声を実現することを目的としています。

多様な表現

入力テキストに基づいて異なる感情や表現方法の音声を生成可能ですが、ナチュラル版では表現と感情のサポートに限りがあります。

モデル能力

ドイツ語テキスト読み上げ

マルチスピーカー音声生成

感情音声生成

使用事例

音声合成

オーディオブック生成

ドイツ語テキストを自然な音声に変換し、オーディオブック制作に使用します。

異なる話者の音色を持つ自然な音声を生成します。

音声アシスタント

ドイツ語音声アシスタントに自然な音声出力を提供します。

リアルな音声応答を生成します。

🚀 Kartoffel-3B (Based on Orpheus-3B) - Natural

このモデルは、Orpheus-3Bをベースにしたドイツ語のテキスト読み上げ（TTS）モデルです。自然な人間の音声を再現することを目的としています。

🚀 クイックスタート

このセクションでは、Kartoffel-3Bモデルの概要と利用可能なバージョンについて説明します。

✨ 主な機能

モデル概要

これはOrpheus-3Bをベースにしたドイツ語のテキスト読み上げ（TTS）モデルファミリーです。

利用可能な2つの主なバージョンがあります：

Kartoffel-3B-Natural: 主に自然な人間の音声録音を使用して微調整され、リアルな声を目指しています。データセットは、高品質のドイツ語のオーディオをベースにしており、許容可能なポッドキャスト、講義、その他のOERデータがEmiliaスタイルのパイプラインで処理されています。
Kartoffel-3B-Synthetic: 合成音声データを使用して微調整され、感情や異なる爆発的な表現を持っています。データセットは、4人の異なる話者による多様な感情を含んでいます。

これは現在、自然な音声を再現するための自然バージョンです。

両方のバージョンがサポートしている機能：

複数の話者: モデルは、事前定義された話者から様々な話者のアイデンティティを使用して音声を生成することができます。
様々な表現: 入力テキストに基づいて、異なる感情的なトーンや表現を持つ音声を生成することができます。自然バージョンは、表現や感情のサポートが限定的です。

自然バージョンの利用可能な話者と表現

話者

いくつかの話者がいますが、すべてが安定しているわけではありません。そのため、少なくとも部分的に安定している話者のみを以下にリストします：

Jakob
Anton
Julian
Jan
Alexander
Emil
Ben
Elias
Felix
Jonas
Noah
Maximilian
Sophie
Marie
Mia
Maria
Sophia
Lina
Lea

残念ながら、データセットには男性の話者が女性の話者よりもはるかに多く含まれていました。また、すべての話者を再構築することはできず、重複が存在する可能性があります。性別の推定もあまりうまく機能していませんでした。

📦 インストール

このセクションでは、必要なライブラリのインストールについて説明します。以下のコードを使用して、必要なライブラリをインストールしてください。

# 必要なライブラリのインストール
pip install torch torchaudio soundfile transformers peft snac

💻 使用例

基本的な使用法

import torch
import torchaudio.transforms as T
import os
import torch
from snac import SNAC

from peft import PeftModel
import soundfile as sf
from transformers import AutoModelForCausalLM, AutoTokenizer


model = AutoModelForCausalLM.from_pretrained(
    "SebastianBodza/Kartoffel_Orpheus-3B_german_synthetic-v0.1",
    device_map="auto",
)

tokenizer = AutoTokenizer.from_pretrained(
    "SebastianBodza/Kartoffel_Orpheus-3B_german_synthetic-v0.1",
)

snac_model = SNAC.from_pretrained("hubertsiuzdak/snac_24khz")
snac_model = snac_model.to("cuda")

chosen_voice = "Julian"

prompts = [
    'Tief im verwunschenen Wald, wo die Bäume uralte Geheimnisse flüsterten, lebte ein kleiner Gnom namens Fips, der die Sprache der Tiere verstand.',
]

def process_single_prompt(prompt, chosen_voice):
    if chosen_voice == "in_prompt" or chosen_voice == "":
        full_prompt = prompt
    else:
        full_prompt = f"{chosen_voice}: {prompt}"
    start_token = torch.tensor([[128259]], dtype=torch.int64)
    end_tokens = torch.tensor([[128009, 128260]], dtype=torch.int64)

    input_ids = tokenizer(full_prompt, return_tensors="pt").input_ids
    modified_input_ids = torch.cat([start_token, input_ids, end_tokens], dim=1)

    input_ids = modified_input_ids.to("cuda")
    attention_mask = torch.ones_like(input_ids)

    generated_ids = model.generate(
        input_ids=input_ids,
        attention_mask=attention_mask,
        max_new_tokens=4000,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        repetition_penalty=1.1,
        num_return_sequences=1,
        eos_token_id=128258,
        use_cache=True,
    )

    token_to_find = 128257
    token_to_remove = 128258

    token_indices = (generated_ids == token_to_find).nonzero(as_tuple=True)

    if len(token_indices[1]) > 0:
        last_occurrence_idx = token_indices[1][-1].item()
        cropped_tensor = generated_ids[:, last_occurrence_idx + 1 :]
    else:
        cropped_tensor = generated_ids

    masked_row = cropped_tensor[0][cropped_tensor[0] != token_to_remove]
    row_length = masked_row.size(0)
    new_length = (row_length // 7) * 7
    trimmed_row = masked_row[:new_length]
    code_list = [t - 128266 for t in trimmed_row]

    return code_list


def redistribute_codes(code_list):
    layer_1 = []
    layer_2 = []
    layer_3 = []
    for i in range((len(code_list) + 1) // 7):
        layer_1.append(code_list[7 * i])
        layer_2.append(code_list[7 * i + 1] - 4096)
        layer_3.append(code_list[7 * i + 2] - (2 * 4096))
        layer_3.append(code_list[7 * i + 3] - (3 * 4096))
        layer_2.append(code_list[7 * i + 4] - (4 * 4096))
        layer_3.append(code_list[7 * i + 5] - (5 * 4096))
        layer_3.append(code_list[7 * i + 6] - (6 * 4096))

    codes = [
        torch.tensor(layer_1).unsqueeze(0),
        torch.tensor(layer_2).unsqueeze(0),
        torch.tensor(layer_3).unsqueeze(0),
    ]
    codes = [c.to("cuda") for c in codes]

    audio_hat = snac_model.decode(codes)
    return audio_hat


for i, prompt in enumerate(prompts):
    print(f"Processing prompt {i + 1}/{len(prompts)}")
    with torch.no_grad():
        code_list = process_single_prompt(prompt, chosen_voice)
        samples = redistribute_codes(code_list)

    audio_numpy = samples.detach().squeeze().to("cpu").numpy()
    sf.write(f"output_{i}.wav", audio_numpy, 24000)
    print(f"Saved output_{i}.wav")

📄 ライセンス

このモデルは、llama3.2ライセンスの下で提供されています。

属性	详情
モデルタイプ	ドイツ語のテキスト読み上げ（TTS）モデル
ベースモデル	amuvarma/3b-de-pretrain、canopylabs/orpheus-3b-0.1-ft
ライセンス	llama3.2