🚀 Habib-HF/tarbiyah-ai-v1-1
- 針對《古蘭經》誦讀微調的 Whisper Small 模型
本模型是 OpenAI 的 whisper-small
模型的微調版本,專門用於自動語音識別(ASR),能夠準確識別**《古蘭經》阿拉伯語誦讀**內容,並將其轉錄為文本。該模型旨在作為 [應用名稱]
應用程序的核心 AI 引擎,為《古蘭經》誦讀提供即時反饋和學習工具。
🚀 快速開始
本模型可用於以下場景:
- 《古蘭經》誦讀練習:輔助個人進行《古蘭經》誦讀練習。
- 轉錄:將口頭誦讀的《古蘭經》經文轉換為文本。
- 集成:作為專注於《古蘭經》學習和塔吉威德(Tajweed,阿拉伯語書法規則)的移動或 Web 應用程序的後端 API。
✨ 主要特性
- 基於 OpenAI 的
whisper-small
模型進行微調,專門適配《古蘭經》阿拉伯語誦讀的自動語音識別。
- 能夠準確地將口頭誦讀的《古蘭經》經文轉錄為文字。
🔧 技術細節
侷限性和偏差
為了負責任地使用該模型,瞭解其侷限性至關重要:
- 數據特異性:儘管在《古蘭經》誦讀上進行了微調,但對於訓練數據中未包含的不同誦讀風格或讀法(Qira'at),其性能可能會有所不同。
- 說話者特徵:該模型主要針對成人聲音進行微調。對於兒童聲音或高度多樣化的口音(例如,訓練數據中未涵蓋的強烈地區阿拉伯語口音),其性能預計會欠佳。未來的迭代將專門針對兒童聲音進行改進。
- 音頻質量:在嘈雜的背景、劣質麥克風或非常快速/不清晰的誦讀情況下,性能可能會顯著下降。
- 尚未進行塔吉威德校正:此版本主要關注詞級轉錄準確性(WER)。高級塔吉威德規則檢測(如 Madd 時長、Ghunna 音質)將在該模型的未來開發階段實現。
訓練數據
該模型在 Hugging Face Hub 上的 MohamedRashad/Quran-Recitations 數據集的一個子集上進行了微調:
- 訓練樣本:約
[10,000]
個來自 train
分割的樣本。
- 評估樣本:約
[1,000]
個來自 train
分割的樣本(用於驗證)。
- 數據特徵:該數據集包含各種誦讀者誦讀《古蘭經》經文的音頻。
訓練過程
該模型在 Google Colab Pro 環境中使用 transformers
庫的 Seq2SeqTrainer
進行微調:
- 基礎模型:
openai/whisper-small
- 訓練步驟:
max_steps=4000
- 梯度累積:
gradient_accumulation_steps=2
- 混合精度:
fp16=True
- 數據加載:流式加載(
streaming=True
),並採用自定義錯誤處理機制跳過格式錯誤的音頻文件和長文本序列。使用 dataloader_num_workers=0
以防止 pickle 錯誤。
- 優化器:AdamW
- 學習率:
1e-5
- 評估策略:每 500 步評估一次(
eval_steps=500
)。
- 最佳模型保存:在訓練結束時加載並保存基於最低 WER 的最佳模型檢查點(
load_best_model_at_end=True
)。
評估結果
在訓練期間,該模型在評估集上取得的最佳性能如下:
- 單詞錯誤率(WER):
[40.48%]
(大約在第 [2000]
步時達到)
(注意:儘管這只是初始結果,但對於在新數據上微調的模型而言,這個 WER 是一個堅實的基礎,表明相較於基礎 Whisper 模型在誦讀方面的通用阿拉伯語 WER 有顯著改進。計劃在更多數據上進行進一步訓練,以實現更低的 WER,滿足生產使用需求。)
📄 許可證
該模型遵循 MIT 許可證。
致謝
- OpenAI:開發了具有開創性的 Whisper 模型。
- MohamedRashad:在 Hugging Face 上整理並開源了
Quran-Recitations
數據集。