wav2vec2-base-10k-voxpopuli-ft-sk開源語音識別模型

首頁

Wav2vec2 Base 10k Voxpopuli Ft Sk

由facebook開發

基於VoxPopuli語料庫10K未標註數據預訓練，並在斯洛伐克語轉錄數據上微調的語音識別模型

語音識別

Transformers

其他#斯洛伐克語語音識別 #VoxPopuli數據集微調 #多語言預訓練

下載量 39

發布時間 : 3/2/2022

模型概述

該模型是Facebook Wav2Vec2基礎模型的變體，專門針對斯洛伐克語語音識別任務進行了優化，適用於將斯洛伐克語語音轉換為文本的應用場景。

模型特點

多階段訓練

先在10K小時的VoxPopuli多語言語料庫上預訓練，再針對斯洛伐克語進行微調

高效語音表徵

基於Wav2Vec2架構，直接從原始音頻學習有效語音表徵

斯洛伐克語優化

專門針對斯洛伐克語語音特點進行優化，提高識別準確率

模型能力

斯洛伐克語語音識別

音頻轉文本

語音轉錄

使用案例

語音轉錄

會議記錄自動化

將斯洛伐克語會議錄音自動轉換為文字記錄

語音助手開發

為斯洛伐克語語音助手提供語音識別能力

無障礙應用

即時字幕生成

為斯洛伐克語視頻內容生成即時字幕

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

該項目基於Facebook的Wav2Vec2基礎模型，此基礎模型在VoxPopuli語料庫的10K無標籤子集上進行預訓練，並在斯洛伐克語（sk）的轉錄數據上進行微調（更多信息請參考論文中的表1）。本項目可用於音頻自動語音識別任務，為語音處理領域提供了有力支持。

✨ 主要特性

基於預訓練的Wav2Vec2模型，在VoxPopuli語料庫上進行預訓練，具有良好的語音特徵學習能力。
在斯洛伐克語轉錄數據上進行微調，對斯洛伐克語語音識別有較好的效果。

📦 安裝指南

文檔中未提及具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-sk")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-sk")

# load dataset
ds = load_dataset("common_voice", "sk", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))