whisper-large-v3-russian開源俄語語音識別模型

首頁

Whisper Large V3 Russian

由antony66開發

基於OpenAI Whisper-large-v3微調的俄語語音識別模型，針對俄語識別性能進行了優化

語音識別

Transformers

其他#俄語語音識別 #電話錄音優化 #低詞錯誤率

下載量 6,665

發布時間 : 5/17/2024

模型概述

該模型是Whisper-large-v3的俄語優化版本，專門針對俄語語音識別任務進行了微調，顯著提升了俄語識別的準確率

模型特點

俄語優化

專門針對俄語語音識別進行了微調，顯著提升了俄語識別準確率

高性能

在Common Voice 17.0俄語數據集上，WER從9.84降至6.39

電話錄音優化

特別針對電話通話場景進行了優化，建議預處理錄音以獲得最佳效果

模型能力

俄語語音識別

自動語音轉文本

支持時間戳返回

使用案例

語音轉寫

電話錄音轉寫

將俄語電話通話內容自動轉寫為文本

WER 6.39

語音內容分析

對俄語語音內容進行自動分析和處理

🚀 語音識別模型

本項目基於 openai/whisper-large-v3 模型進行微調，旨在更好地支持俄語語音識別。使用 Common Voice 17.0 數據集的俄語部分進行微調，該數據集包含超過 20 萬條語音數據。

🚀 快速開始

本模型是 openai/whisper-large-v3 的微調版本，旨在更好地支持俄語。

用於微調的數據集是 Common Voice 17.0 的俄語部分，包含超過 20 萬行數據。

在對原始數據集進行預處理（將所有分割數據混合，並按 0.95/0.05 的比例重新劃分為新的訓練集和測試集，即分別為 225761/11883 行）後，原始的 Whisper v3 模型的字錯率（WER）為 9.84，而微調後的版本目前顯示為 6.39。

微調過程在雙 Tesla A100 80Gb 上花費了超過 60 小時。

✨ 主要特性

語言支持：針對俄語進行了微調，能更好地識別俄語語音。
性能提升：相比原始模型，字錯率（WER）顯著降低。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

在處理語音通話時，強烈建議在進行自動語音識別（ASR）之前對錄音進行預處理並調整音量。例如，可以使用以下命令：

sox record.wav -r 16k record-normalized.wav norm -0.5 compand 0.3,1 -90,-90,-70,-70,-60,-20,0,0 -5 0 0.2

高級用法

以下是進行自動語音識別的 Python 代碼示例：

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor, pipeline

torch_dtype = torch.bfloat16 # set your preferred type here 

device = 'cpu'
if torch.cuda.is_available():
    device = 'cuda'
elif torch.backends.mps.is_available():
    device = 'mps'
    setattr(torch.distributed, "is_initialized", lambda : False) # monkey patching
device = torch.device(device)

whisper = WhisperForConditionalGeneration.from_pretrained(
    "antony66/whisper-large-v3-russian", torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True,
    # add attn_implementation="flash_attention_2" if your GPU supports it
)

processor = WhisperProcessor.from_pretrained("antony66/whisper-large-v3-russian")

asr_pipeline = pipeline(
    "automatic-speech-recognition",
    model=whisper,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=256,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

# read your wav file into variable wav. For example:
from io import BufferIO
wav = BytesIO()
with open('record-normalized.wav', 'rb') as f:
    wav.write(f.read())
wav.seek(0)

# get the transcription
asr = asr_pipeline(wav, generate_kwargs={"language": "russian", "max_new_tokens": 256}, return_timestamps=False)

print(asr['text'])