whisper-large-v2-hi-v3开源印地语语音识别模型

首页

Whisper Large V2 Hi V3

由 anuragshas 开发

基于OpenAI Whisper Large-v2模型微调的印地语语音识别模型，在Common Voice 11.0印地语测试集上达到11.3%的词错误率

语音识别

Transformers

其他开源协议:Apache-2.0 #印地语语音识别 #低词错误率 #多GPU训练

下载量 21

发布时间 : 12/15/2022

模型简介

这是一个专门针对印地语优化的自动语音识别(ASR)模型，基于OpenAI的Whisper架构，在Mozilla Common Voice数据集上进行了微调

模型特点

低词错误率

在印地语测试集上达到11.3%的词错误率，表现优异

多GPU训练优化

支持分布式多GPU训练，采用梯度累积技术提高训练效率

精细调优

在Common Voice印地语数据集上进行了1000步的精细调优

模型能力

印地语语音识别

语音转文本

长音频处理

使用案例

语音转录

印地语语音转录

将印地语语音内容转换为文本

11.3%的词错误率

语音助手

印地语语音指令识别

为印地语语音助手提供语音识别能力

🚀 Whisper Large-v2 Hindi

本模型是 openai/whisper-large-v2 在 mozilla-foundation/common_voice_11_0 hi 数据集上的微调版本。它在评估集上取得了以下成果，具备高精度的语音识别能力，为印地语语音处理提供了有效的解决方案。

🚀 快速开始

此部分暂未提供具体的快速开始内容，若有相关信息可进一步补充。

✨ 主要特性

基于 openai/whisper-large-v2 进行微调，继承了强大的语音识别能力。
在 mozilla-foundation/common_voice_11_0 hi 数据集上进行训练，对印地语语音有较好的识别效果。
在评估集上有明确的损失和字错误率（Wer）指标，可衡量模型性能。

📦 安装指南

此部分暂未提供具体的安装步骤，若有相关信息可进一步补充。

💻 使用示例

此部分暂未提供代码示例，若有相关信息可进一步补充。

📚 详细文档

模型评估结果

该模型在评估集上取得了以下结果：

损失（Loss）: 0.3191
字错误率（Wer）: 11.3039

模型信息

属性	详情
模型类型	Whisper Large-v2 Hindi
训练数据	mozilla-foundation/common_voice_11_0 hi
指标	Wer

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）: 1e-05
训练批次大小（train_batch_size）: 32
评估批次大小（eval_batch_size）: 16
随机种子（seed）: 42
分布式类型（distributed_type）: 多 GPU
梯度累积步数（gradient_accumulation_steps）: 2
总训练批次大小（total_train_batch_size）: 64
优化器（optimizer）: Adam（betas=(0.9,0.999)，epsilon=1e-08）
学习率调度器类型（lr_scheduler_type）: 线性
学习率调度器热身步数（lr_scheduler_warmup_steps）: 50
训练步数（training_steps）: 1000

训练结果

训练损失	轮数	步数	验证损失	字错误率（Wer）
0.0479	2.06	200	0.2189	12.3226
0.0081	5.06	400	0.2649	11.5740
0.001	8.06	600	0.2998	11.4252
0.0004	11.05	800	0.3191	11.3039
0.0003	14.05	1000	0.3267	11.3291

框架版本

Transformers 4.26.0.dev0
Pytorch 1.13.0+cu117
Datasets 2.7.1.dev0
Tokenizers 0.13.2

📄 许可证

本项目采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库