🚀 耳语泰卢固语基础模型
本模型是基于多种公开可用的自动语音识别(ASR)语料库中的泰卢固语数据,对 openai/whisper-base 进行微调后的版本。它是“耳语微调冲刺”项目的一部分。
注意:训练此模型的代码可在 whisper-finetune 仓库中复用。
🚀 快速开始
本模型是基于多个公开可用的自动语音识别语料库中的泰卢固语数据,对 openai/whisper-base 进行微调得到的。它是耳语微调项目的一部分。
✨ 主要特性
- 基于公开的泰卢固语数据对
openai/whisper-base
进行微调。
- 提供了评估和推理的代码,支持使用
whisper-jax
进行快速推理。
📦 安装指南
暂未提及具体安装步骤,可参考 whisper-finetune 仓库中的相关说明。
💻 使用示例
基础用法
若要使用此模型对单个音频文件进行推理,可使用以下代码片段:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-base", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
高级用法
若要对耳语模型进行快速推理,可使用 whisper-jax 库。请先按照 此处 提到的必要安装步骤操作,再使用以下代码片段:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-base", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")
>>> print('Transcription: ', transcribe(audio)["text"])
📚 详细文档
若要在整个数据集上评估此模型,可使用 whisper-finetune 仓库中的评估代码。该仓库还提供了使用 whisper-jax
进行快速推理的脚本。
🔧 技术细节
训练和评估数据
- 训练数据:
- CSTD IIIT - H ASR 语料库
- [ULCA ASR 语料库](https://github.com/Open - Speech - EkStep/ULCA - asr - dataset - corpus#telugu - labelled - total - duration - is - 102593 - hours)
- Shrutilipi ASR 语料库
- [微软语音语料库(印度语言)](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)
- Google/Fleurs 训练 + 开发集
- Babel ASR 语料库
- 评估数据:
- [微软语音语料库(印度语言)测试集](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)
- Google/Fleurs 测试集
- OpenSLR
- Babel 测试集
训练超参数
- 学习率:3.3e - 05
- 训练批次大小:80
- 评估批次大小:88
- 随机种子:22
- 优化器:adamw_bnb_8bit
- 学习率调度器类型:线性
- 学习率调度器热身步数:15000
- 训练步数:24174(收敛时终止,初始设置为 85952 步)
- 混合精度训练:True
📄 许可证
本项目采用 Apache - 2.0 许可证。
👏 致谢
本工作在 印度理工学院马德拉斯分校语音实验室 完成。本工作的计算资源由印度电子和信息技术部(MeitY)的“Bhashini:国家语言翻译任务”项目资助。
📊 模型信息
属性 |
详情 |
模型类型 |
耳语泰卢固语基础模型 |
训练数据 |
CSTD IIIT - H ASR 语料库、ULCA ASR 语料库、Shrutilipi ASR 语料库、微软语音语料库(印度语言)、Google/Fleurs 训练 + 开发集、Babel ASR 语料库 |
评估数据 |
微软语音语料库(印度语言)测试集、Google/Fleurs 测试集、OpenSLR、Babel 测试集 |
学习率 |
3.3e - 05 |
训练批次大小 |
80 |
评估批次大小 |
88 |
随机种子 |
22 |
优化器 |
adamw_bnb_8bit |
学习率调度器类型 |
线性 |
学习率调度器热身步数 |
15000 |
训练步数 |
24174(收敛时终止,初始设置为 85952 步) |
混合精度训练 |
是 |