speech-text開源自動語音識別模型 - 免費部署支持英語語音轉文字

首頁

Speech Text

由abidlabs開發

基於facebook/wav2vec2-large-xlsr-53在英語通用語音數據集上微調的自動語音識別模型，支持16kHz採樣率的英語語音輸入。

語音識別英語開源協議:Apache-2.0 #英語語音識別 #低詞錯誤率 #XLSR微調

下載量 25

發布時間 : 3/7/2022

模型概述

這是一個用於英語自動語音識別(ASR)的模型，基於XLSR-53架構微調，能夠將英語語音轉換為文本。

模型特點

高性能英語語音識別

在通用語音英語測試集上達到19.06%的詞錯誤率(WER)和7.69%的字錯誤率(CER)

支持語言模型增強

結合語言模型後，詞錯誤率可降至14.81%，字錯誤率降至6.84%

16kHz採樣率支持

專為16kHz採樣率的語音輸入優化

模型能力

英語語音識別

語音轉文本

自動語音轉錄

使用案例

語音轉錄

會議記錄轉錄

將英語會議錄音自動轉換為文字記錄

準確率約80-85%(WER 14.81-19.06%)

播客內容轉錄

自動生成英語播客的文字稿

語音接口

語音助手

為英語語音助手提供語音識別能力

🚀 Wav2Vec2-Large-XLSR-53-English

本項目基於Common Voice英文數據集，對facebook/wav2vec2-large-xlsr-53模型進行了微調。使用該模型時，請確保語音輸入的採樣率為16kHz。

此模型的微調得益於OVHcloud慷慨提供的GPU算力支持。訓練腳本可在此處找到。

🚀 快速開始

本模型基於英文的Common Voice數據集，對facebook/wav2vec2-large-xlsr-53進行了微調。使用該模型時，請確保語音輸入的採樣率為16kHz。

✨ 主要特性

基於大規模預訓練模型facebook/wav2vec2-large-xlsr-53進行微調，提升英文語音識別效果。
可直接使用，也可結合語言模型使用。
提供了詳細的使用示例和評估腳本。

📦 安裝指南

文檔未提及安裝相關內容，可參考原模型及依賴庫的安裝說明進行安裝。

💻 使用示例

基礎用法

使用HuggingSound庫進行語音識別：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分識別結果示例：

參考文本	預測文本
"SHE'LL BE ALL RIGHT."	SHE'LL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALL AS WELL THAT ENDS WELL
DO YOU MEAN IT?	DO YOU MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESSION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSLILLAR GOING TO HANDLE ANDBEWOOTH HIS LIKE Q AND Q
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTIAN WASTIN PAN ONTE BATTLY
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUICE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

📚 詳細文檔

評估

在mozilla-foundation/common_voice_6_0數據集的test分割上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset mozilla-foundation/common_voice_6_0 --config en --split test

在speech-recognition-community-v2/dev_data數據集上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 許可證

本項目採用apache-2.0許可證。

📚 引用

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021wav2vec2-large-xlsr-53-english,
  title={XLSR Wav2Vec2 English by Jonatas Grosman},
  author={Grosman, Jonatas},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english}},
  year={2021}
}