whisper-medium-ml開源語音識別模型 - 免費實現馬拉雅拉姆語自動語音識別

首頁

Whisper Medium Ml

由thennal開發

基於OpenAI Whisper-medium微調的馬拉雅拉姆語自動語音識別模型，在Common Voice 11.0等數據集上訓練

語音識別

Transformers

其他開源協議:Apache-2.0 #馬拉雅拉姆語ASR #低詞錯誤率 #多數據集微調

下載量 127

發布時間 : 12/12/2022

模型概述

該模型是針對馬拉雅拉姆語優化的自動語音識別(ASR)系統，基於Whisper-medium架構微調，支持高準確率的語音轉文字功能

模型特點

多數據集訓練

融合了Common Voice 11.0、Fleurs及多個馬拉雅拉姆語專用數據集訓練

優化的錯誤率

在Common Voice測試集上達到11.49的詞錯誤率(WER)

標準化處理

針對馬拉雅拉姆語特性優化了文本標準化處理流程

模型能力

馬拉雅拉姆語語音識別

長音頻處理（支持30秒分塊）

帶時間戳的轉錄（可選）

使用案例

語音轉錄

語音內容轉寫

將馬拉雅拉姆語語音內容轉換為文字

在測試集上達到88.51%的單詞識別準確率

輔助工具

無障礙應用

為聽力障礙者提供即時字幕生成

🚀 馬拉雅拉姆語Whisper Medium模型

本模型是基於openai/whisper-medium在Common Voice 11.0數據集上微調得到的版本。它能夠將馬拉雅拉姆語語音準確轉錄為文本，在語音識別任務中具有較高的準確率。

🚀 快速開始

本模型是 openai/whisper-medium 在 Common Voice 11.0 數據集上的微調版本。它在評估集上取得了以下成績：

字錯率（WER）：38.6207
字符錯誤率（CER）：7.3256

需要注意的是，Whisper 的歸一化處理對於馬拉雅拉姆語這類語言存在重大問題，因此上述分數是在未使用歸一化的情況下評估得出的。若使用歸一化（以便與該平臺上的其他模型進行公平比較），結果如下：

字錯率（WER）：11.49

可以使用此Colab作為進一步微調模型的起點。

💻 使用示例

基礎用法

給定一個音頻樣本 audio（可以是從numpy數組到文件路徑的任何形式），以下代碼可生成轉錄內容：

from transformers import pipeline, WhisperProcessor

processor = WhisperProcessor.from_pretrained("thennal/whisper-medium-ml")
forced_decoder_ids = processor.get_decoder_prompt_ids(language="ml", task="transcribe")
asr = pipeline(
        "automatic-speech-recognition", model="thennal/whisper-medium-ml", device=0,
    )
transcription = asr(audio, chunk_length_s=30, max_new_tokens=448, return_timestamps=False,  generate_kwargs={
        "forced_decoder_ids": forced_decoder_ids, 
        "do_sample": True,
    })

🔧 技術細節

訓練超參數

訓練過程中使用了以下超參數：

學習率：1e-05
訓練批次大小：32
評估批次大小：16
隨機種子：42
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練步數：8000
混合精度訓練：原生自動混合精度（Native AMP）

框架版本

Transformers：4.26.0.dev0
Pytorch：1.13.0+cu117
Datasets：2.7.1.dev0
Tokenizers：0.13.2

📄 許可證

本模型採用Apache-2.0許可證。

📋 模型信息表格

屬性	詳情
模型類型	Whisper Medium馬拉雅拉姆語微調模型
訓練數據	mozilla-foundation/common_voice_11_0、google/fleurs、thennal/IMaSC、thennal/ulca_ml、thennal/msc、thennal/indic_tts_ml
評估指標	字錯率（WER）
基礎模型	openai/whisper-medium