wav2vec2開源俄語語音識別模型 - 免費使用精準識別語音內容

首頁

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Russian

由Edresson開發

這是一個基於Facebook的wav2vec2-large-100k-voxpopuli模型，使用Common Voice 7.0和M-AILABS俄語數據進行微調的語音識別模型。

語音識別

Transformers

其他開源協議:Apache-2.0 #俄語語音識別 #高精度WER24.8 #多源數據微調

下載量 25

發布時間 : 3/2/2022

模型概述

該模型主要用於俄語語音識別任務，能夠將俄語語音轉換為文本。

模型特點

高精度俄語語音識別

在Common Voice 7.0俄語測試集上達到24.80%的詞錯誤率(WER)。

多數據源訓練

結合了Common Voice和M-AILABS兩個高質量的俄語語音數據集進行微調。

基於Transformer架構

採用先進的wav2vec2架構，具有強大的語音特徵提取能力。

模型能力

俄語語音識別

語音轉文本

音頻處理

使用案例

語音轉錄

俄語語音轉寫

將俄語語音內容轉換為文本格式

詞錯誤率24.80%

語音助手

俄語語音指令識別

用於俄語語音助手或智能家居設備的語音指令識別

🚀 Wav2vec2 Large 100k Voxpopuli 基於Common Voice和M - AILABS的俄語微調模型

本項目是將 Wav2vec2 Large 100k Voxpopuli 模型使用Common Voice 7.0和M - AILABS數據集進行俄語微調後的成果，可用於俄語的自動語音識別任務。

🚀 快速開始

安裝依賴

本項目使用Python和相關的深度學習庫，你可以通過以下方式安裝所需的庫：

pip install transformers torchaudio datasets jiwer

加載模型和分詞器

from transformers import AutoTokenizer, Wav2Vec2ForCTC
  
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-russian")
model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-russian")

💻 使用示例

基礎用法

以下代碼展示瞭如何使用該模型進行語音識別：

from transformers import AutoTokenizer, Wav2Vec2ForCTC
import torch
import torchaudio

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-russian")
model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-russian")

# 加載音頻文件
audio_file = "your_audio_file.wav"
waveform, sample_rate = torchaudio.load(audio_file)

# 重採樣到模型所需的採樣率（通常為16000Hz）
resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
waveform = resampler(waveform)

# 進行語音識別
input_values = tokenizer(waveform.squeeze().numpy(), return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = tokenizer.decode(predicted_ids[0])

print("識別結果:", transcription)

高級用法

使用Common Voice數據集進行測試

from datasets import load_dataset
import torchaudio
import re
from jiwer import wer

# 加載Common Voice數據集
dataset = load_dataset("common_voice", "pt", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

# 定義重採樣器
resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

# 定義字符過濾正則表達式
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'

# 定義映射函數，將音頻文件轉換為數組
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("â€™", "'")
    return batch

# 對數據集進行映射
ds = dataset.map(map_to_array)

# 定義預測函數（這裡假設map_to_pred函數已定義）
def map_to_pred(batch):
    # 這裡需要實現具體的預測邏輯
    input_values = tokenizer(batch["speech"], return_tensors="pt").input_values
    with torch.no_grad():
        logits = model(input_values).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = tokenizer.decode(predicted_ids[0])
    return batch

# 進行預測
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))

# 計算字錯率（WER）
print(wer.compute(predictions=result["predicted"], references=result["target"]))