whisper-hindi-large-v2开源模型 - 免费支持印地语语音精准识别

首页

Whisper Hindi Large V2

由 vasista22 开发

基于OpenAI Whisper-large-v2微调的印地语语音识别模型，在多个公开印地语ASR语料库上训练

语音识别其他开源协议:Apache-2.0 #印地语语音识别 #低词错误率 #多语料库微调

下载量 1,488

发布时间 : 1/14/2023

模型简介

该模型是针对印地语优化的自动语音识别(ASR)模型，能够将印地语语音准确转录为文本。

模型特点

高精度印地语识别

在Fleurs测试集上达到6.8%的词错误率(WER)

多数据集训练

使用GramVaani、ULCA、Shrutilipi等多个印地语ASR数据集进行训练

快速推理支持

支持使用whisper-jax进行加速推理

模型能力

印地语语音识别

长音频处理(支持分块处理)

语音转文本

使用案例

语音转录

印地语语音转文字

将印地语语音内容转换为文字记录

在Fleurs测试集上WER 6.8%，Common Voice 11.0测试集上WER 10.98%

语音助手

印地语语音指令识别

用于印地语语音助手系统的语音指令识别

🚀 Whisper Hindi Large-v2

本模型是在多个公开可用的印地语自动语音识别（ASR）语料库数据上，对 openai/whisper-large-v2 进行微调得到的。它是 Whisper 微调冲刺项目的一部分。

模型指标

属性	详情
支持语言	印地语
许可证	Apache-2.0
标签	whisper-event
评估指标	词错误率（WER）

模型评估结果

任务	数据集	评估指标	值
自动语音识别	google/fleurs (hi_in 配置，测试集)	WER	6.8
自动语音识别	mozilla-foundation/common_voice_11_0 (hi 配置，测试集)	WER	10.98

🚀 快速开始

本模型可用于印地语的自动语音识别任务。训练此模型的代码可在 whisper-finetune 仓库中复用。

💻 使用示例

基础用法

若要使用此模型对单个音频文件进行转录，可使用以下代码片段：

>>> import torch
>>> from transformers import pipeline

>>> # 待转录音频文件的路径
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-hindi-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高级用法

若要对整个数据集评估此模型，可使用 whisper-finetune 仓库中的评估代码。该仓库还提供了使用 whisper-jax 进行快速推理的脚本。

为了使用 whisper-jax 库进行更快的推理，请先按照此处提到的必要安装步骤进行操作，然后使用以下代码片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # 待转录音频文件的路径
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-hindi-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])