VoxPolska-V1-Merged-16bit開源模型 - 免費實現自然流暢波蘭語文本轉語音

首頁

Voxpolska V1 Merged 16bit

由salihfurkaan開發

VoxPolska是一個專注于波蘭語文本到語音轉換的先進模型，能夠生成自然流暢且富有表現力的波蘭語語音。

語音合成

Transformers

其他開源協議:Apache-2.0 #波蘭語語音合成 #高保真音頻 #語境感知

下載量 116

發布時間 : 5/6/2025

模型概述

VoxPolska是一個基於Orpheus TTS架構的波蘭語文本到語音轉換模型，通過LoRA微調和16位量化優化，能夠將波蘭語書面文本轉換為高質量的語音輸出。

模型特點

語境感知語音

能夠捕捉波蘭語細微差別和語調，生成自然流暢的語音

高保真音質

24 kHz音頻輸出，實現高質量的語音合成

高效訓練

採用LoRA微調和16位量化技術優化模型性能

大規模訓練數據

基於24000+波蘭語文本-音頻對進行訓練

模型能力

波蘭語文本到語音轉換

高質量語音合成

語境感知語音生成

使用案例

語音合成應用

語音助手

為波蘭語語音助手提供自然流暢的語音輸出

生成富有表現力的波蘭語語音

有聲讀物

將波蘭語文本轉換為有聲讀物

保持文本情感和語調的高質量語音

語音導航系統

為波蘭語導航系統提供清晰的語音指引

準確傳達導航信息的自然語音

🚀 VoxPolska：下一代波蘭語語音生成

VoxPolska 是一款專注于波蘭語語音生成的模型，它能夠將書面的波蘭語文本轉化為自然、流暢且富有表現力的語音，精準捕捉波蘭語的細微差別和語調。

📋 模型信息

屬性	詳情
基礎模型	unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit
標籤	transformers、unsloth、llama、trl、tts、tex-to-speech
許可證	apache - 2.0
語言	波蘭語
數據集	czyzi0/the-mc-speech-dataset
任務類型	文本轉語音

✨ 主要特性

上下文感知語音：生成的語音能夠捕捉波蘭語的細微差別和語調。
先進技術展示：在語音合成和波蘭語處理方面展現出卓越的能力。
自然流暢表達：將書面的波蘭語文本轉換為自然、流暢且富有表現力的語音。
先進深度學習：採用前沿的深度學習技術，以實現最佳性能。
前沿技術應用：展示了在語音合成和波蘭語處理方面的先進水平。

🔧 技術細節

基礎模型：Orpheus TTS
低秩適配微調：應用 LoRA（低秩適配）微調以優化模型性能。
採樣率：24 kHz 音頻輸出，實現高保真音效。
訓練數據：使用 24000 多個波蘭語轉錄和音頻對進行訓練。
量化合並：合併 16 位量化。
音頻解碼：採用定製的逐層處理進行音頻生成。
重複懲罰：設置為 1.1，避免重複短語。
梯度檢查點：啟用以實現高效的內存使用。

💻 使用示例

基礎用法

以下是在筆記本中運行該模型的示例代碼：

!pip install snac torch transformers

import torch
import snac
from snac import SNAC
from transformers import AutoTokenizer, AutoModelForCausalLM
import os
from IPython.display import display, Audio

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

tokenizer = AutoTokenizer.from_pretrained("salihfurkaan/VoxPolska-V1-Merged-16bit")
model = AutoModelForCausalLM.from_pretrained("salihfurkaan/VoxPolska-V1-Merged-16bit").to(device)

os.environ["HF_TOKEN"] = "your huggingface token here"
snac_model = SNAC.from_pretrained("hubertsiuzdak/snac_24khz").to(device)

prompts = [
    "Cześć, jestem dużym modelem języka sztucznej inteligencji"
]  #an example prompt
chosen_voice = None

prompts_ = [(f"{chosen_voice}: " + p) if chosen_voice else p for p in prompts]
all_input_ids = []
for prompt in prompts_:
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids
    all_input_ids.append(input_ids)

start_token = torch.tensor([[128259]], dtype=torch.int64)  # Start of human
end_tokens = torch.tensor([[128009, 128260]], dtype=torch.int64)  # End of text, End of human

all_modified_input_ids = []
for input_ids in all_input_ids:
    modified_input_ids = torch.cat([start_token, input_ids, end_tokens], dim=1)
    all_modified_input_ids.append(modified_input_ids)

all_padded_tensors = []
all_attention_masks = []
max_length = max([x.shape[1] for x in all_modified_input_ids])
for modified_input_ids in all_modified_input_ids:
    padding = max_length - modified_input_ids.shape[1]
    padded_tensor = torch.cat([torch.full((1, padding), 128263, dtype=torch.int64), modified_input_ids], dim=1)
    attention_mask = torch.cat([torch.zeros((1, padding), dtype=torch.int64), torch.ones((1, modified_input_ids.shape[1]), dtype=torch.int64)], dim=1)
    all_padded_tensors.append(padded_tensor)
    all_attention_masks.append(attention_mask)

all_padded_tensors = torch.cat(all_padded_tensors, dim=0).to(device)
all_attention_masks = torch.cat(all_attention_masks, dim=0).to(device)

generated_ids = model.generate(
    input_ids=all_padded_tensors,
    attention_mask=all_attention_masks,
    max_new_tokens=1200,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
    repetition_penalty=1.1,
    num_return_sequences=1,
    eos_token_id=128258,
    use_cache=True
)

token_to_find = 128257
token_to_remove = 128258
token_indices = (generated_ids == token_to_find).nonzero(as_tuple=True)

if len(token_indices[1]) > 0:
    last_occurrence_idx = token_indices[1][-1].item()
    cropped_tensor = generated_ids[:, last_occurrence_idx+1:]
else:
    cropped_tensor = generated_ids

processed_rows = []
for row in cropped_tensor:
    masked_row = row[row != token_to_remove]
    processed_rows.append(masked_row)

code_lists = []
for row in processed_rows:
    row_length = row.size(0)
    new_length = (row_length // 7) * 7
    trimmed_row = row[:new_length]
    trimmed_row = [t - 128266 for t in trimmed_row]
    code_lists.append(trimmed_row)

def redistribute_codes(code_list):
    layer_1 = []
    layer_2 = []
    layer_3 = []
    for i in range((len(code_list) + 1) // 7):
        layer_1.append(code_list[7 * i])
        layer_2.append(code_list[7 * i + 1] - 4096)
        layer_3.append(code_list[7 * i + 2] - (2 * 4096))
        layer_3.append(code_list[7 * i + 3] - (3 * 4096))
        layer_2.append(code_list[7 * i + 4] - (4 * 4096))
        layer_3.append(code_list[7 * i + 5] - (5 * 4096))
        layer_3.append(code_list[7 * i + 6] - (6 * 4096))

    codes = [
        torch.tensor(layer_1).unsqueeze(0).to(device),
        torch.tensor(layer_2).unsqueeze(0).to(device),
        torch.tensor(layer_3).unsqueeze(0).to(device)
    ]
    audio_hat = snac_model.decode(codes)
    return audio_hat

my_samples = []
for code_list in code_lists:
    samples = redistribute_codes(code_list)
    my_samples.append(samples)

if len(prompts) != len(my_samples):
    raise Exception("Number of prompts and samples do not match")
else:
    for i in range(len(my_samples)):
        print(prompts[i])
        samples = my_samples[i]
        display(Audio(samples.detach().squeeze().to("cpu").numpy(), rate=24000))

del my_samples, samples

你可以從這裡獲取你的 Hugging Face 令牌。

📞 聯繫與支持

如有問題、建議或反饋，請在 Hugging Face 上提交問題。你也可以通過以下方式聯繫作者： LinkedIn

⚠️ 模型使用規範

請勿在未經同意的情況下使用此模型進行模仿、傳播錯誤信息或欺騙行為（包括虛假新聞或欺詐性電話），或任何非法或有害活動。使用此模型即表示你同意遵守所有適用的法律和道德準則。

📖 引用信息

@misc{
  title={salihfurkaan/VoxPolska-V1-Merged-16bit},
  author={Salih Furkan Erik},
  year={2025},
  url={https://huggingface.co/salihfurkaan/VoxPolska-V1-Merged-16bit/}
}