wav2vec2-base-10k-voxpopuli-ft-fi開源模型 - 精準實現芬蘭語自動語音識別

首頁

Wav2vec2 Base 10k Voxpopuli Ft Fi

由facebook開發

基於Facebook Wav2Vec2基礎模型，在VoxPopuli語料庫的10K未標註子集上預訓練，並在芬蘭語轉錄數據上微調的自動語音識別模型。

語音識別

Transformers

其他#芬蘭語語音識別 #多語言預訓練 #低資源優化

下載量 24

發布時間 : 3/2/2022

模型概述

該模型是一個針對芬蘭語的自動語音識別(ASR)系統，能夠將芬蘭語語音轉換為文本。

模型特點

基於VoxPopuli語料庫

使用VoxPopuli大規模多語言語音語料庫進行預訓練，確保模型具有強大的語音理解能力

芬蘭語優化

專門針對芬蘭語進行微調，提高了對芬蘭語語音的識別準確率

端到端語音識別

直接從原始音頻輸入生成文本輸出，簡化了語音識別流程

模型能力

芬蘭語語音識別

音頻轉文本

語音轉錄

使用案例

語音轉寫

會議記錄自動化

將芬蘭語會議錄音自動轉換為文字記錄

語音助手

為芬蘭語語音助手提供語音識別能力

無障礙技術

即時字幕生成

為芬蘭語視頻內容生成即時字幕

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

本項目基於 Facebook的Wav2Vec2 基礎模型，該模型在 VoxPopuli語料庫的10K無標籤子集上進行預訓練，並在芬蘭語（fi）的轉錄數據上進行微調（更多信息請參考論文中的表1）。

🚀 快速開始

模型信息

本模型是基於Facebook的Wav2Vec2基礎模型，在VoxPopuli語料庫的特定子集上預訓練，並在芬蘭語轉錄數據上微調得到的。

論文信息

論文標題：VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
論文作者：來自 Facebook AI 的 Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux

更多信息請參考官方網站。

💻 使用示例

基礎用法

以下展示瞭如何在 Common Voice數據集的樣本上使用該模型進行推理：

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-fi")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-fi")

# load dataset
ds = load_dataset("common_voice", "fi", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))

📄 許可證

本項目採用 cc-by-nc-4.0 許可證。

📦 模型詳情

屬性	詳情
模型類型	基於Wav2Vec2的自動語音識別模型
訓練數據	在VoxPopuli語料庫的10K無標籤子集上預訓練，在芬蘭語轉錄數據上微調
標籤	音頻、自動語音識別、VoxPopuli