Quran_Whisper_base_fine_tune开源模型 - 精准实现古兰经经文阿拉伯语音转文字

首页

Quran Whisper Base Fine Tune

由 Baselhany 开发

该模型是基于openai/whisper-base在quran-ayat-speech-to-text数据集上微调的阿拉伯语语音识别模型，专注于古兰经经文的语音转文字任务。

语音识别

Transformers

阿拉伯语开源协议:Apache-2.0 #阿拉伯语语音识别 #古兰经音频转写 #低词错误率

下载量 35

发布时间 : 2/11/2025

模型简介

Whisper base AR - BH是一个针对阿拉伯语语音识别优化的模型，特别适用于古兰经经文的转录任务。它在微调后显著提升了阿拉伯语语音识别的准确率。

模型特点

高精度阿拉伯语识别

针对阿拉伯语特别是古兰经经文进行了优化，词错误率(WER)17.83%，字符错误率(CER)5.36%

基于Whisper架构

建立在OpenAI Whisper-base模型基础上，继承了其优秀的语音识别能力

专业领域优化

在quran-ayat-speech-to-text数据集上微调，特别适合宗教文本转录

模型能力

阿拉伯语语音识别

宗教文本转录

实时语音转文字

使用案例

宗教应用

古兰经学习辅助

帮助学习者通过语音输入查询古兰经经文

高准确率的经文转录

宗教内容创作

将宗教演讲和讲座自动转录为文字

教育应用

阿拉伯语学习工具

帮助学习者练习阿拉伯语发音和听力

🚀 Whisper base AR - BH

本模型是 openai/whisper-base 在 quran-ayat-speech-to-text 数据集上的微调版本。它在评估集上取得了以下结果：

损失值（Loss）：0.0151
词错误率（Wer）：17.8284
字符错误率（Cer）：5.3577

🚀 快速开始

本模型是基于 openai/whisper-base 在特定数据集上微调得到的语音识别模型，可用于语音识别任务。

✨ 主要特性

基于预训练的 openai/whisper-base 模型进行微调，在 quran-ayat-speech-to-text 数据集上有良好表现。
评估集上有具体的损失值、词错误率和字符错误率指标。

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.0001
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：16
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：64
优化器（optimizer）：使用 adamw_torch，其中 betas=(0.9,0.999)，epsilon=1e - 08，无额外优化器参数
学习率调度器类型（lr_scheduler_type）：余弦
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：7
混合精度训练（mixed_precision_training）：原生自动混合精度（Native AMP）

训练结果

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	字符错误率（Cer）	验证损失（Validation Loss）	词错误率（Wer）
0.0425	0.3011	400	11.2952	0.0330	37.6901
0.0258	0.6023	800	7.9539	0.0218	25.4742
0.0197	0.9034	1200	7.0188	0.0194	22.3362
0.0083	1.2637	1600	6.1604	0.0183	20.2225
0.0066	1.5794	2000	5.9469	0.0176	19.4205
0.0065	1.8952	2400	5.8609	0.0174	19.0958
0.0161	2.1084	2800	5.8786	0.0167	18.8094
0.0157	2.4096	3200	5.6719	0.0162	18.4526
0.0157	2.7107	3600	5.6150	0.0160	18.3772
0.0063	3.1595	4000	5.4820	0.0160	18.0877
0.0052	3.4752	4400	5.4747	0.0161	18.2023
0.0049	3.7910	4800	5.5285	0.0161	17.9922
0.0154	3.9155	5200	5.5457	0.0159	18.1641
0.0142	4.2168	5600	5.4871	0.0158	17.9721
0.0143	4.5180	6000	5.5382	0.0157	18.0495
0.0155	4.8191	6400	5.4620	0.0156	17.9460
0.005	5.3710	6800	5.4875	0.0157	17.7691
0.0052	5.6868	7200	5.4416	0.0157	17.8646
0.0085	4.8653	7600	5.5002	0.0157	17.8817
0.0096	5.1216	8000	5.5124	0.0156	17.8264
0.0094	5.3776	8400	5.6387	0.0155	17.7500
0.0093	5.6336	8800	5.4429	0.0154	17.6736
0.01	5.8896	9200	5.3128	0.0153	17.2856
0.0091	6.1453	9600	5.2836	0.0153	17.2424
0.0088	6.4019	10000	0.0153	17.2434	5.2826
0.008	6.6579	10400	0.0153	17.1288	5.2957
0.007	6.9139	10800	0.0153	17.1680	5.2889

框架版本

Transformers 4.47.0
Pytorch 2.5.1+cu121
Datasets 3.2.0
Tokenizers 0.21.0

📄 许可证

本模型采用 Apache 2.0 许可证。

属性	详情
库名称	transformers
语言	阿拉伯语（ar）
许可证	Apache 2.0
基础模型	openai/whisper-base
标签	generated_from_trainer
评估指标	词错误率（wer）
模型名称	Whisper base AR - BH