🚀 Habib-HF/tarbiyah-ai-v1-1
- 针对《古兰经》诵读微调的 Whisper Small 模型
本模型是 OpenAI 的 whisper-small
模型的微调版本,专门用于自动语音识别(ASR),能够准确识别**《古兰经》阿拉伯语诵读**内容,并将其转录为文本。该模型旨在作为 [应用名称]
应用程序的核心 AI 引擎,为《古兰经》诵读提供实时反馈和学习工具。
🚀 快速开始
本模型可用于以下场景:
- 《古兰经》诵读练习:辅助个人进行《古兰经》诵读练习。
- 转录:将口头诵读的《古兰经》经文转换为文本。
- 集成:作为专注于《古兰经》学习和塔吉威德(Tajweed,阿拉伯语书法规则)的移动或 Web 应用程序的后端 API。
✨ 主要特性
- 基于 OpenAI 的
whisper-small
模型进行微调,专门适配《古兰经》阿拉伯语诵读的自动语音识别。
- 能够准确地将口头诵读的《古兰经》经文转录为文字。
🔧 技术细节
局限性和偏差
为了负责任地使用该模型,了解其局限性至关重要:
- 数据特异性:尽管在《古兰经》诵读上进行了微调,但对于训练数据中未包含的不同诵读风格或读法(Qira'at),其性能可能会有所不同。
- 说话者特征:该模型主要针对成人声音进行微调。对于儿童声音或高度多样化的口音(例如,训练数据中未涵盖的强烈地区阿拉伯语口音),其性能预计会欠佳。未来的迭代将专门针对儿童声音进行改进。
- 音频质量:在嘈杂的背景、劣质麦克风或非常快速/不清晰的诵读情况下,性能可能会显著下降。
- 尚未进行塔吉威德校正:此版本主要关注词级转录准确性(WER)。高级塔吉威德规则检测(如 Madd 时长、Ghunna 音质)将在该模型的未来开发阶段实现。
训练数据
该模型在 Hugging Face Hub 上的 MohamedRashad/Quran-Recitations 数据集的一个子集上进行了微调:
- 训练样本:约
[10,000]
个来自 train
分割的样本。
- 评估样本:约
[1,000]
个来自 train
分割的样本(用于验证)。
- 数据特征:该数据集包含各种诵读者诵读《古兰经》经文的音频。
训练过程
该模型在 Google Colab Pro 环境中使用 transformers
库的 Seq2SeqTrainer
进行微调:
- 基础模型:
openai/whisper-small
- 训练步骤:
max_steps=4000
- 梯度累积:
gradient_accumulation_steps=2
- 混合精度:
fp16=True
- 数据加载:流式加载(
streaming=True
),并采用自定义错误处理机制跳过格式错误的音频文件和长文本序列。使用 dataloader_num_workers=0
以防止 pickle 错误。
- 优化器:AdamW
- 学习率:
1e-5
- 评估策略:每 500 步评估一次(
eval_steps=500
)。
- 最佳模型保存:在训练结束时加载并保存基于最低 WER 的最佳模型检查点(
load_best_model_at_end=True
)。
评估结果
在训练期间,该模型在评估集上取得的最佳性能如下:
- 单词错误率(WER):
[40.48%]
(大约在第 [2000]
步时达到)
(注意:尽管这只是初始结果,但对于在新数据上微调的模型而言,这个 WER 是一个坚实的基础,表明相较于基础 Whisper 模型在诵读方面的通用阿拉伯语 WER 有显著改进。计划在更多数据上进行进一步训练,以实现更低的 WER,满足生产使用需求。)
📄 许可证
该模型遵循 MIT 许可证。
致谢
- OpenAI:开发了具有开创性的 Whisper 模型。
- MohamedRashad:在 Hugging Face 上整理并开源了
Quran-Recitations
数据集。