wav2vec2-large-xlsr-53-chinese語音模型 - 開源免費支持中文語音識別

首頁

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

由qinyue開發

基於facebook/wav2vec2-large-xlsr-53在中文AISHELL-1數據集上微調的語音識別模型，支持中文語音識別任務。

語音識別

Transformers

中文開源協議:Apache-2.0 #中文語音識別 #低WER #無語言模型依賴

下載量 22

發布時間 : 6/16/2022

模型概述

該模型是一個自動語音識別(ASR)模型，專門針對中文語音進行優化，能夠將中文語音轉換為文本。

模型特點

中文語音識別

專門針對中文語音優化的識別模型，在AISHELL-1數據集上表現優異。

無需語言模型

可以直接使用，不需要額外的語言模型支持。

高準確率

在AISHELL-1測試集上達到7.04%的詞錯誤率(WER)，使用語言模型後可降至3.96%。

模型能力

中文語音識別

16kHz採樣率音頻處理

使用案例

語音轉寫

會議記錄

將會議錄音自動轉換為文字記錄

準確率高達92.96%(WER 7.04%)

語音助手

用於中文語音助手的人機交互

語音分析

語音內容分析

分析語音內容中的關鍵詞和主題

🚀 Wav2Vec2-Large-XLSR-53-Chinese-zh-CN-aishell1

本項目基於AISHELL-1數據集，對中文語音數據微調了facebook/wav2vec2-large-xlsr-53模型。使用該模型時，請確保輸入的語音採樣率為16kHz。

🚀 快速開始

本模型可直接使用（無需語言模型），示例代碼如下：

💻 使用示例

基礎用法

import torch
import librosa
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

device = "cuda:0" if torch.cuda.is_available() else "cpu"

processor = Wav2Vec2Processor.from_pretrained(
    'qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1')
model = Wav2Vec2ForCTC.from_pretrained(
    'qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1').to(device)

filepath = 'test.wav'
audio, sr = librosa.load(filepath, sr=16000, mono=True)
inputs = processor(audio, sample_rate=16000, return_tensors="pt").to(device)
with torch.no_grad():
    logits = model(inputs.input_values,
                   attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
pred_str = processor.decode(predicted_ids[0])

print(pred_str)

📚 詳細文檔

評估代碼

wer_metric = load_metric("wer")

def compute_metrics(pred):
    pred_logits = pred.predictions
    pred_ids = np.argmax(pred_logits, axis=-1)

    pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id

    pred_str = processor.batch_decode(pred_ids, spaces_between_special_tokens=True)
    label_str = processor.batch_decode(pred.label_ids, group_tokens=False, spaces_between_special_tokens=True)

    wer = wer_metric.compute(predictions=pred_str, references=label_str)

    return {"wer": wer}

評估結果

參考文本	預測文本
據偉業我愛我家市場研究院測算	據北業我愛我家市場研究院測算
七月北京公積金貸款成交量提升了百分之五	七月北京公積金貸款成交量提升了百分之五
培育門類豐富層次齊用的綜合利用產業	培育門類豐富層資集業的綜合利用產業
我們迎來了趕超發達國家的難得機遇	我們迎來了趕超發達國家的單得機遇
堅持基本草原保護制度	堅持基本草員保護制度
強化水生生態修復和建設	強化水生生態修復和建設
溫州兩男子為爭女人駕奔馳寶馬街頭四次對撞	溫州兩男子為爭女人架奔馳寶馬接頭四次對重
她表示應該是吃吃飯看電影之類的	他表示一的是吃吃飯看電影之理
加強畜禽遺傳資源和農業野生植物資源保護	加強續緊遺傳資源和農業野生職物資源保護
兩人都是依賴電話溝通	兩人都是依賴電話溝通

測試結果：以下表格展示了模型在AISHELL-1測試數據集上的詞錯誤率（WER）。

模型	詞錯誤率（WER）	帶語言模型的詞錯誤率（WER-with-LM）
qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1	7.04%	3.96%

📄 許可證

本項目採用Apache-2.0許可證。

📦 模型信息

屬性	詳情
模型類型	微調後的Wav2Vec2-Large-XLSR-53中文模型
訓練數據	AISHELL-1中文語音數據集
評估指標	詞錯誤率（WER）
標籤	音頻、自動語音識別、語音、XLSR微調周
模型名稱	XLSR Wav2Vec2 Large 53 - 中文 (zh-CN)，作者：Yue Qin