whisper-large-v3-persian-common-voice-17開源模型 - 提升波斯語自動語音識別準確率

首頁

Whisper Large V3 Persian Common Voice 17

由msghol開發

基於Whisper Large v3微調的波斯語自動語音識別模型，使用Common Voice 17數據集訓練，顯著提升了波斯語識別準確率。

語音識別

Transformers

其他開源協議:MIT #波斯語語音識別 #大規模數據集微調 #低詞錯誤率

下載量 442

發布時間 : 3/15/2025

模型概述

這是一個專門針對波斯語優化的自動語音識別模型，基於OpenAI的Whisper Large v3架構，在Mozilla Common Voice 17的波斯語子集上進行了微調。

模型特點

大規模數據訓練

使用超過25萬條波斯語語音樣本訓練，相比之前版本(8.3萬樣本)顯著提升了識別準確率

低詞錯誤率

在波斯語語音識別中實現了21.43的詞錯誤率(WER)

專業優化

專門針對波斯語特性進行了優化，提升了該語言的識別準確性和魯棒性

模型能力

波斯語語音識別

長音頻處理(支持30秒分塊)

使用案例

語音轉文字

波斯語會議記錄

將波斯語會議錄音自動轉換為文字記錄

準確率提升，詞錯誤率降低

波斯語媒體字幕生成

為波斯語視頻內容自動生成字幕

提高字幕製作效率

🚀 Whisper Large v3 - 波斯語（Common Voice 17）

本項目基於 Whisper Large v3 模型，在 Common Voice 17 數據集上進行微調，利用超 250,000 條波斯語音頻樣本，大幅提升了波斯語自動語音識別的準確率和魯棒性，為波斯語社區提供更優質可靠的語音識別服務。

🚀 快速開始

安裝依賴

確保你已經安裝了 transformers 庫。如果尚未安裝，可以使用以下命令進行安裝：

pip install transformers

代碼示例

from transformers import pipeline

asr_pipe = pipeline(
    "automatic-speech-recognition",
    model="msghol/whisper-large-v3-persian-common-voice-17",
    chunk_length_s=30
)

text = asr_pipe("your_file")["text"]
print(text)

✨ 主要特性

數據豐富：在 Common Voice 17 數據集上微調，使用超 250,000 條波斯語音頻樣本，遠多於 Common Voice 11 數據集的 83,000 條樣本。
準確率提升：更低的詞錯誤率（WER），增強了模型識別波斯語語音的準確性和魯棒性。
應用廣泛：為波斯語自動語音識別領域帶來重大進展，讓高質量語音識別更易獲取。

📦 安裝指南

使用 pip 安裝所需的 transformers 庫：

pip install transformers

💻 使用示例

基礎用法

from transformers import pipeline

asr_pipe = pipeline(
    "automatic-speech-recognition",
    model="msghol/whisper-large-v3-persian-common-voice-17",
    chunk_length_s=30
)

text = asr_pipe("your_file")["text"]
print(text)

📚 詳細文檔

模型信息

屬性	詳情
模型名稱	Whisper Large v3 - 波斯語（Common Voice 17）
基礎模型	Whisper Large v3
語言	波斯語（法爾西語）
數據集	Mozilla Common Voice 17（波斯語子集）
使用的硬件	NVIDIA A100 GPU
批量大小	16
訓練步數	5000
詞錯誤率（WER）	21.43

注意事項

⚠️ 重要提示

由於微調過程未包含任何時間戳信息，模型無法返回時間戳。即使嘗試返回，也會遇到錯誤。解決方案是將音頻文件分割成更小的片段。進一步微調肯定會提高模型的準確性。我們目前正在尋求硬件和自動語音識別數據集合作的贊助。

引用信息

@misc{whisper_persian_cv17,
  author = {Mohammad Sadegh Gholizadeh},
  title = {Whisper Large v3 - Persian (Common Voice 17)},
  year = {2025},
  url = {https://huggingface.co/msghol/whisper-large-v3-persian-common-voice-17}
}