Whisper-base.kk開源自動語音識別模型 - 免費部署精準識別哈薩克語語音

首頁

Whisper Base.kk

由akuzdeuov開發

Whisper-base是針對低資源哈薩克語的自動語音識別(ASR)模型，在哈薩克語音語料庫2上微調，包含超過1千小時的標註數據。

語音識別

Safetensors

其他開源協議:Apache-2.0 #哈薩克語語音識別 #低資源優化 #工業級語料

下載量 43

發布時間 : 8/14/2024

模型概述

這是一個僅支持哈薩克語的語音識別模型，基於Whisper架構，專為哈薩克語語音轉文本任務優化。

模型特點

低資源語言優化

專門針對哈薩克語這類低資源語言進行優化，在有限數據下實現良好性能

工業級語料訓練

使用超過1千小時的工業級哈薩克語音語料庫(KSC2)進行訓練

長音頻處理

支持通過分塊算法處理任意長度的音頻輸入

模型能力

哈薩克語語音識別

長音頻轉錄

批量語音處理

使用案例

語音轉錄

哈薩克語會議記錄

將哈薩克語會議錄音自動轉錄為文字記錄

測試集WER 15.36%

媒體內容字幕生成

為哈薩克語視頻內容自動生成字幕

🚀 哈薩克語自動語音識別模型 - Whisper-base.kk

本項目是針對資源稀缺的哈薩克語設計的自動語音識別（ASR）模型 Whisper-base。該模型在擁有超 1000 小時標註數據的哈薩克語語音語料庫 2 上進行了微調，在測試集上的字錯率（WER）達到了 15.36%。

🚀 快速開始

本項目提供了一個專門用於哈薩克語語音識別的模型，以下是使用該模型的基本步驟。

✨ 主要特性

針對性強：專為哈薩克語語音識別設計，是僅支持哈薩克語的模型。
數據豐富：在擁有超 1000 小時標註數據的哈薩克語語音語料庫 2 上進行微調。
效果良好：在測試集上取得了 15.36% 的字錯率（WER）。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 transformers 庫的官方安裝說明進行安裝。

💻 使用示例

基礎用法

>>> from transformers import WhisperProcessor, WhisperForConditionalGeneration
>>> import librosa

>>> # 加載模型和處理器
>>> processor = WhisperProcessor.from_pretrained("akuzdeuov/whisper-base.kk")
>>> model = WhisperForConditionalGeneration.from_pretrained("akuzdeuov/whisper-base.kk")

>>> # 加載音頻
>>> audio, sampling_rate = librosa.load("path_to_audio", sr=16000)
>>> input_features = processor(audio, sampling_rate=sampling_rate, return_tensors="pt").input_features 

>>> # 生成令牌 ID
>>> predicted_ids = model.generate(input_features)
>>> # 將令牌 ID 解碼為文本
>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)

>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

可以通過設置 skip_special_tokens=True 從轉錄開始處移除上下文令牌。

高級用法

Whisper 模型本質上設計用於處理時長最長 30 秒的音頻樣本。不過，通過使用分塊算法，它可以用於轉錄任意長度的音頻樣本。這可以通過 Transformers 的 pipeline 方法實現。在實例化管道時設置 chunk_length_s = 30 即可啟用分塊。啟用分塊後，管道可以進行批量推理。

>>> import torch
>>> from transformers import pipeline

>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> pipe = pipeline(
>>>   "automatic-speech-recognition",
>>>   model="akuzdeuov/whisper-base.kk",
>>>   chunk_length_s=30,
>>>   device=device,
>>> )

>>> prediction = pipe("path_to_audio", batch_size=8)["text"]

📚 詳細文檔

屬性	詳情
模型類型	Whisper-base 用於哈薩克語自動語音識別
訓練數據	哈薩克語語音語料庫 2（KSC2），擁有超 1000 小時標註數據
任務類型	自動語音識別（Automatic Speech Recognition）
數據集	哈薩克語語音語料庫 2（KSC2），類型為 librispeech_asr，配置為 clean，分割為測試集
評估指標	測試集字錯率（Test WER），值為 15.36%