xlsr_wav2vec_english開源自動語音識別模型 - 免費部署精準識別英語語音

Home

Xlsr Wav2vec English

Developed by harshit345

基於facebook/wav2vec2-large在通用語音數據集上進行英語微調的自動語音識別模型，支持16kHz採樣率的語音輸入。

語音識別

Transformers

EnglishOpen Source License:Apache-2.0 #英語語音識別 #WER 21.53%#16kHz採樣率

Downloads 27

Release Time : 3/2/2022

Model Overview

這是一個用於英語自動語音識別(ASR)的Wav2Vec2模型，經過微調後可直接使用，無需額外語言模型。

Model Features

高精度識別

在通用語音英語測試集上達到21.53%的詞錯誤率和9.66%的字符錯誤率

無需語言模型

可直接使用，無需額外語言模型支持

16kHz採樣率支持

專門針對16kHz採樣率的語音輸入進行優化

Model Capabilities

英語語音識別

音頻轉錄

自動語音轉文本

Use Cases

語音轉錄

會議記錄

將會議錄音自動轉錄為文字記錄

播客轉文字

將英語播客內容自動轉換為文字稿

輔助技術

語音控制

為應用程序添加語音控制功能

🚀 Wav2vec2-Large-English

Wav2vec2-Large-English 是基於 Common Voice 英文數據集對 facebook/wav2vec2-large 進行微調得到的模型。使用此模型時，請確保語音輸入的採樣率為 16kHz。

🚀 快速開始

本模型可直接使用（無需語言模型），以下是具體使用方法。

✨ 主要特性

數據集：使用 Common Voice 英文數據集進行微調。
評估指標：支持字錯誤率（WER）和字符錯誤率（CER）評估。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

使用 ASRecognition 庫：

from asrecognition import ASREngine

asr = ASREngine("fr", model_path="jonatasgrosman/wav2vec2-large-english")

audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
transcriptions = asr.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是預測結果示例：

參考文本	預測文本
"SHE'LL BE ALL RIGHT."	SHELL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALLAS WELL THAT ENDS WELL
DO YOU MEAN IT?	W MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESTION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSILLA GOING TO BANDL AND BE WHIT IS LIKE QU AND QU
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTION AS HAME AK AN THE POT
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUCE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

📚 詳細文檔

評估方法

本模型可在 Common Voice 英文測試數據上進行評估，以下是評估代碼：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-english"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

測試結果

以下表格展示了本模型及其他模型的字錯誤率（WER）和字符錯誤率（CER）。需要注意的是，表格中的結果可能與其他評估腳本的結果不同，這可能是由於使用的評估腳本存在差異。

模型	字錯誤率（WER）	字符錯誤率（CER）
wav2vec2-large-xlsr-53-english	18.98%	8.29%
wav2vec2-large-xlsr-53-greek	18.99%	10.60%
wav2vec2-large-xlsr-53-hindi	20.01%	9.66%
wav2vec2-large-960h-lv60-english	22.03%	10.39%
wav2vec2-base-100h-lv60-english	24.97%	11.14%