🚀 Whisper Telugu Large-v2
本模型是基于Transformer架构的语音识别模型,在多种公开可用的泰卢固语自动语音识别(ASR)语料库上微调而成,可用于泰卢固语的语音识别任务。
🚀 快速开始
本模型是 openai/whisper-large-v2 在多个公开可用的泰卢固语ASR语料库数据上的微调版本。它是 Whisper 微调冲刺项目的一部分。
注意:训练此模型的代码可在 whisper-finetune 仓库中复用。
✨ 主要特性
- 基于 Whisper-large-v2 模型微调,适用于泰卢固语语音识别。
- 提供了在整个数据集上的评估代码,以及使用 whisper-jax 进行快速推理的脚本。
📦 安装指南
文档未提及安装步骤,可参考 whisper-finetune 仓库获取安装相关信息。
💻 使用示例
基础用法
若要使用此模型对单个音频文件进行推理,可使用以下代码片段:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高级用法
若要对整个数据集评估此模型,可使用 whisper-finetune 仓库中的评估代码。该仓库还提供了使用 whisper-jax 进行快速推理的脚本。
对于 Whisper 模型的快速推理,可使用 whisper-jax 库。在使用以下代码片段之前,请按照 此处 提到的必要安装步骤进行操作:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
📚 详细文档
训练和评估数据
训练超参数
训练期间使用了以下超参数:
属性 |
详情 |
学习率 |
0.75e-05 |
训练批次大小 |
8 |
评估批次大小 |
32 |
随机种子 |
22 |
优化器 |
adamw_bnb_8bit |
学习率调度器类型 |
linear |
学习率调度器热身步数 |
22000 |
训练步数 |
75000 |
混合精度训练 |
True |
🔧 技术细节
本模型是在多个公开可用的泰卢固语ASR语料库上对 openai/whisper-large-v2 进行微调得到的。通过调整一系列超参数,如学习率、批次大小等,使得模型在泰卢固语语音识别任务上取得了较好的效果。评估指标采用了词错误率(WER),在测试集上的WER为 9.65。
📄 许可证
本项目采用 Apache-2.0 许可证。
📚 模型索引
名称 |
结果 |
Whisper Telugu Large-v2 - Vasista Sai Lodagala |
任务类型:自动语音识别;数据集:google/fleurs (te_in 配置,测试集);评估指标:WER=9.65 |
🎉 致谢
本工作由 印度理工学院马德拉斯分校语音实验室 完成。
本工作的计算资源由印度电子和信息技术部(MeitY)的“Bhashini:国家语言翻译任务”项目资助。