whisper-telugu-medium开源语音识别模型 - 精准识别泰卢固语语音内容

首页

Whisper Telugu Medium

由 vasista22 开发

基于OpenAI Whisper-medium微调的泰卢固语语音识别模型，在多个公开泰卢固语ASR数据集上训练

语音识别其他开源协议:Apache-2.0 #泰卢固语语音识别 #低词错误率 #多数据集微调

下载量 228

发布时间 : 12/20/2022

模型简介

该模型是针对泰卢固语优化的自动语音识别(ASR)模型，能够将泰卢固语语音准确转录为文本

模型特点

多数据集训练

融合了CSTD IIIT-H、ULCA、Shrutilipi等多个权威泰卢固语ASR数据集

高性能

在Fleurs测试集上达到9.47%的词错误率(WER)

高效推理支持

提供标准transformers和whisper-jax两种推理方案，支持GPU加速

模型能力

泰卢固语语音识别

长音频处理(支持分块处理)

多场景语音转录

使用案例

语音转录

会议记录

将泰卢固语会议录音转为文字记录

高准确率的转录文本

媒体字幕生成

为泰卢固语视频内容自动生成字幕

同步准确的文字字幕

语音助手

泰卢固语语音交互

构建支持泰卢固语的语音助手应用

自然流畅的语音交互体验

🚀 耳语泰卢固语中型模型

本模型是基于多个公开可用的自动语音识别（ASR）语料库中的泰卢固语数据，对 openai/whisper-medium 进行微调后的版本。它是耳语微调冲刺项目的一部分。

注意：训练此模型的代码可在 whisper-finetune 仓库中复用。

🚀 快速开始

本模型可用于泰卢固语的自动语音识别任务。你可以使用提供的代码示例进行推理和评估。

✨ 主要特性

基于公开的泰卢固语数据对 openai/whisper-medium 模型进行微调。
提供了评估代码和推理脚本，支持快速评估和推理。
支持使用 whisper-jax 库进行更快的推理。

📦 安装指南

若要评估此模型或进行推理，可参考 whisper-finetune 仓库中的说明进行安装。

💻 使用示例

基础用法

若要使用此模型对单个音频文件进行转录，可使用以下代码片段：

>>> import torch
>>> from transformers import pipeline

>>> # 待转录音频文件的路径
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-medium", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('转录结果: ', transcribe(audio)["text"])

高级用法

若要对耳语模型进行更快的推理，可使用 whisper-jax 库。请按照此处所述的必要安装步骤操作，然后使用以下代码片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # 待转录音频文件的路径
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-medium", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('转录结果: ', transcribe(audio)["text"])

📚 详细文档

训练和评估数据

属性	详情
训练数据	CSTD IIIT - H ASR 语料库、[ULCA ASR 语料库](https://github.com/Open - Speech - EkStep/ULCA - asr - dataset - corpus#telugu - labelled - total - duration - is - 102593 - hours)、Shrutilipi ASR 语料库、[微软语音语料库（印度语言）](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)、Google/Fleurs 训练+开发集、Babel ASR 语料库
评估数据	[微软语音语料库（印度语言）测试集](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)、Google/Fleurs 测试集、OpenSLR、Babel 测试集

训练超参数

属性	详情
学习率	1e - 05
训练批次大小	24
评估批次大小	48
随机种子	22
优化器	adamw_bnb_8bit
学习率调度器类型	linear
学习率调度器热身步数	15000
训练步数	35808（收敛时终止，初始设置为 89520 步）
混合精度训练	True