whisper-large-zh-cv11開源語音識別模型 - 免費部署精準識別中文普通話

首頁

Whisper Large Zh Cv11

由jonatasgrosman開發

基於openai/whisper-large-v2在中文(普通話)上使用Common Voice 11數據集微調的語音識別模型

語音識別

Transformers

中文開源協議:Apache-2.0 #中文語音識別 #低CER表現 #多場景適配

下載量 145

發布時間 : 12/18/2022

模型概述

該模型是針對中文(普通話)優化的自動語音識別(ASR)模型，在Common Voice 11數據集上進行了微調，顯著提升了中文語音識別準確率。

模型特點

中文優化

針對中文普通話進行了專門微調，顯著提升了中文語音識別準確率

多場景評估

在Common Voice和Fleurs兩個數據集上進行了全面評估，包含原始文本和標準化文本兩種場景

標點支持

能夠識別並轉錄語音中的標點符號

模型能力

普通話語音識別

標點符號識別

大小寫轉換

使用案例

語音轉寫

會議記錄

將中文會議錄音自動轉寫為文字記錄

在Common Voice測試集上CER為9.55%，WER為55.02%

語音筆記

將個人語音備忘錄轉換為文字

語音助手

中文語音指令識別

用於智能家居或移動設備的中文語音指令識別

🚀 中文（普通話）大模型Whisper

本模型是在中文（普通話）上對 openai/whisper-large-v2 進行微調後的版本，使用了 Common Voice 11 的訓練集和驗證集。訓練過程中並未使用所有驗證集數據，我從驗證集中提取了 1000 個樣本用於微調期間的評估。

🚀 快速開始

環境準備

確保你已經安裝了 transformers 庫。如果尚未安裝，可以使用以下命令進行安裝：

pip install transformers

代碼示例

from transformers import pipeline

transcriber = pipeline(
  "automatic-speech-recognition", 
  model="jonatasgrosman/whisper-large-zh-cv11"
)

transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="zh", 
    task="transcribe"
  )
)

transcription = transcriber("path/to/my_audio.wav")

💻 使用示例

基礎用法

上述代碼展示瞭如何使用該模型進行語音轉錄。你只需要將 path/to/my_audio.wav 替換為你實際的音頻文件路徑，即可完成語音轉錄。

📚 詳細文檔

評估

我使用了兩個數據集的測試集對模型進行了評估，分別是 Common Voice 11（與微調時使用的數據集相同）和 Fleurs（微調期間未使用的數據集）。由於 Whisper 可以轉錄大小寫和標點符號，我在兩種不同的場景下進行了模型評估，一種使用原始文本，另一種使用歸一化文本（小寫 + 去除標點符號）。此外，對於 Fleurs 數據集，我還評估了在沒有數值轉錄的場景下模型的表現，因為該數據集中數值的描述方式與微調時使用的數據集（Common Voice）不同，所以預計這種數值描述方式的差異會影響模型在 Fleurs 數據集上此類轉錄的性能。

Common Voice 11

模型	字符錯誤率（CER）	詞錯誤率（WER）
jonatasgrosman/whisper-large-zh-cv11	9.31	55.94
jonatasgrosman/whisper-large-zh-cv11 + 文本歸一化	9.55	55.02
openai/whisper-large-v2	33.33	101.80
openai/whisper-large-v2 + 文本歸一化	29.90	95.91

Fleurs

模型	字符錯誤率（CER）	詞錯誤率（WER）
jonatasgrosman/whisper-large-zh-cv11	15.00	93.45
jonatasgrosman/whisper-large-zh-cv11 + 文本歸一化	11.76	70.63
jonatasgrosman/whisper-large-zh-cv11 + 僅保留非數值樣本	10.95	87.91
jonatasgrosman/whisper-large-zh-cv11 + 文本歸一化 + 僅保留非數值樣本	7.83	62.12
openai/whisper-large-v2	23.49	101.28
openai/whisper-large-v2 + 文本歸一化	17.58	83.22
openai/whisper-large-v2 + 僅保留非數值樣本	21.03	101.95
openai/whisper-large-v2 + 文本歸一化 + 僅保留非數值樣本	15.22	79.28