whisper-telugu-large-v2开源语音识别模型 - 精准识别泰卢固语语音内容

首页

Whisper Telugu Large V2

由 vasista22 开发

基于OpenAI Whisper-large-v2微调的泰卢固语自动语音识别模型，在多个公开泰卢固语数据集上训练

语音识别其他开源协议:Apache-2.0 #泰卢固语语音识别 #低词错误率 #多语料库训练

下载量 156

发布时间 : 12/20/2022

模型简介

专门针对泰卢固语优化的语音识别模型，能够准确将泰卢固语语音转换为文本

模型特点

泰卢固语优化

专门针对泰卢固语进行微调，提供更准确的语音识别效果

多数据集训练

在多个公开泰卢固语ASR语料库上训练，包括CSTD IIIT-H、ULCA、Shrutilipi等

高效推理支持

支持使用whisper-jax进行加速推理

模型能力

泰卢固语语音识别

长音频处理（支持分块处理）

多领域语音转录

使用案例

语音转录

会议记录

将泰卢固语会议录音转换为文字记录

媒体字幕生成

为泰卢固语视频内容生成字幕

语音助手

泰卢固语语音交互

支持泰卢固语语音命令识别

🚀 Whisper Telugu Large-v2

本模型是基于Transformer架构的语音识别模型，在多种公开可用的泰卢固语自动语音识别（ASR）语料库上微调而成，可用于泰卢固语的语音识别任务。

🚀 快速开始

本模型是 openai/whisper-large-v2 在多个公开可用的泰卢固语ASR语料库数据上的微调版本。它是 Whisper 微调冲刺项目的一部分。

注意：训练此模型的代码可在 whisper-finetune 仓库中复用。

✨ 主要特性

基于 Whisper-large-v2 模型微调，适用于泰卢固语语音识别。
提供了在整个数据集上的评估代码，以及使用 whisper-jax 进行快速推理的脚本。

📦 安装指南

文档未提及安装步骤，可参考 whisper-finetune 仓库获取安装相关信息。

💻 使用示例

基础用法

若要使用此模型对单个音频文件进行推理，可使用以下代码片段：

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高级用法

若要对整个数据集评估此模型，可使用 whisper-finetune 仓库中的评估代码。该仓库还提供了使用 whisper-jax 进行快速推理的脚本。

对于 Whisper 模型的快速推理，可使用 whisper-jax 库。在使用以下代码片段之前，请按照此处提到的必要安装步骤进行操作：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 详细文档

训练和评估数据

训练数据：
- CSTD IIIT-H ASR 语料库
- ULCA ASR 语料库
- Shrutilipi ASR 语料库
- Microsoft 语音语料库（印度语言）
- Google/Fleurs 训练+开发集
- Babel ASR 语料库
评估数据：
- Microsoft 语音语料库（印度语言）测试集
- Google/Fleurs 测试集
- OpenSLR
- Babel 测试集

训练超参数

训练期间使用了以下超参数：

属性	详情
学习率	0.75e-05
训练批次大小	8
评估批次大小	32
随机种子	22
优化器	adamw_bnb_8bit
学习率调度器类型	linear
学习率调度器热身步数	22000
训练步数	75000
混合精度训练	True

🔧 技术细节

本模型是在多个公开可用的泰卢固语ASR语料库上对 openai/whisper-large-v2 进行微调得到的。通过调整一系列超参数，如学习率、批次大小等，使得模型在泰卢固语语音识别任务上取得了较好的效果。评估指标采用了词错误率（WER），在测试集上的WER为 9.65。

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 模型索引

名称	结果
Whisper Telugu Large-v2 - Vasista Sai Lodagala	任务类型：自动语音识别；数据集：google/fleurs (te_in 配置，测试集)；评估指标：WER=9.65