🚀 泰米尔语大模型 Whisper Tamil Large-v2
本模型是专为泰米尔语语音识别任务打造的强大工具。它基于 openai/whisper-large-v2 进行微调,利用多个公开可用的自动语音识别(ASR)语料库中的泰米尔语数据进行训练。作为 Whisper 微调冲刺项目的一部分,该模型在泰米尔语语音识别方面表现出色。
📄 许可证
本模型采用 Apache-2.0 许可证。
📊 模型指标
属性 |
详情 |
模型类型 |
Whisper Tamil Large-v2 |
训练数据 |
来自多个公开可用的 ASR 语料库的泰米尔语数据 |
评估指标 |
在多个数据集上的字错误率(WER) |
🏆 评估结果
任务 |
数据集 |
WER |
自动语音识别 |
google/fleurs (ta_in 测试集) |
7.5 |
自动语音识别 |
mozilla-foundation/common_voice_11_0 (ta 测试集) |
6.61 |
🚀 快速开始
评估整个数据集
若要在整个数据集上评估此模型,可使用 whisper-finetune 仓库中的评估代码。
快速推理
同一仓库还提供了使用 whisper-jax 进行快速推理的脚本。
单音频文件推理
若要使用此模型对单个音频文件进行推理,可使用以下代码片段:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('转录结果: ', transcribe(audio)["text"])
更快推理
若要实现更快的推理,可使用 whisper-jax 库。在使用以下代码片段之前,请按照 此处 所述完成必要的安装步骤:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('转录结果: ', transcribe(audio)["text"])
📦 训练和评估数据
训练数据
评估数据
🔧 训练超参数
以下是训练过程中使用的超参数:
- 学习率:0.75e-05
- 训练批次大小:8
- 评估批次大小:24
- 随机种子:22
- 优化器:adamw_bnb_8bit
- 学习率调度器类型:线性
- 学习率调度器热身步数:22000
- 训练步数:52500(初始设置为 76000 步)
- 混合精度训练:是
🙏 致谢
本工作由 印度理工学院马德拉斯分校语音实验室 完成。
本工作的计算资源由印度电子和信息技术部(MeitY)的“Bhashini:国家语言翻译任务”项目资助。
⚠️ 重要提示
训练此模型所使用的代码可在 whisper-finetune 仓库中重复使用。