wav2vec2-base-10k-voxpopuli-ft-en開源模型 - 免費部署實現精準英語語音識別

首頁

Wav2vec2 Base 10k Voxpopuli Ft En

由facebook開發

基於VoxPopuli語料庫10K未標記子集預訓練並在英語轉錄數據上微調的Wav2Vec2基礎模型，適用於英語語音識別任務。

語音識別

Transformers

英語#英語語音識別 #VoxPopuli微調 #無監督預訓練

下載量 40

發布時間 : 3/2/2022

模型概述

該模型是Facebook的Wav2Vec2基礎模型，經過VoxPopuli語料庫預訓練和英語轉錄數據微調，主要用於英語自動語音識別(ASR)任務。

模型特點

VoxPopuli預訓練

基於VoxPopuli大規模多語言語音語料庫的10K未標記子集進行預訓練

英語轉錄微調

在英語轉錄數據上進行微調，優化英語語音識別性能

端到端語音識別

直接從原始音頻輸入生成文本輸出，無需中間特徵提取步驟

模型能力

英語語音識別

音頻轉錄

自動語音轉文本

使用案例

語音轉錄

會議記錄

將英語會議錄音自動轉錄為文字記錄

播客轉錄

將英語播客內容轉換為可搜索的文本格式

輔助技術

語音轉文字工具

為聽力障礙人士提供即時語音轉文字服務

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

本項目基於 Facebook的Wav2Vec2 基礎模型，該模型在 VoxPopuli語料庫的10K無標籤子集上進行預訓練，並在英文轉錄數據上進行微調（更多信息請參考論文中的表1）。

✨ 主要特性

基於預訓練的Wav2Vec2模型，在VoxPopuli語料庫上進行微調，適用於英文語音識別任務。
可用於對 Common Voice數據集進行推理。

📚 詳細文檔

論文信息

論文標題：VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
作者：來自 Facebook AI 的 Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux

💻 使用示例

基礎用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-en")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-en")

# load dataset
ds = load_dataset("common_voice", "en", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))