wav2vec2-base-10k-voxpopuli-ft-de開源語音識別模型

首頁

Wav2vec2 Base 10k Voxpopuli Ft De

由facebook開發

基於Facebook Wav2Vec2基礎模型，在VoxPopuli語料庫10K無標註子集上預訓練，並在德語轉錄數據上微調的語音識別模型

語音識別

Transformers

德語#德語語音識別 #VoxPopuli預訓練 #低資源優化

下載量 46

發布時間 : 3/2/2022

模型概述

該模型是一個德語自動語音識別(ASR)系統，能夠將德語語音轉換為文本。基於Wav2Vec2架構，通過大規模無監督預訓練和有監督微調實現高性能語音識別。

模型特點

大規模預訓練

基於VoxPopuli語料庫10K小時無標註數據進行預訓練，學習豐富的語音表徵

德語優化

專門針對德語語音數據進行微調，在德語語音識別任務上表現優異

端到端學習

直接從原始音頻學習語音特徵，無需人工設計特徵提取器

模型能力

德語語音識別

音頻轉文本

語音轉錄

使用案例

語音轉錄

會議記錄自動化

自動將德語會議錄音轉換為文字記錄

語音助手

為德語語音助手提供語音識別能力

無障礙技術

即時字幕生成

為德語視頻內容生成即時字幕

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

本項目基於Facebook的Wav2Vec2基礎模型，該模型在VoxPopuli語料庫的10K無標籤子集上進行預訓練，並在德語轉錄數據上進行微調（更多信息請參考論文中的表1）。

🚀 快速開始

本模型可用於對Common Voice數據集中的樣本進行推理。以下是使用示例：

基礎用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-de")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-de")

# load dataset
ds = load_dataset("common_voice", "de", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))