whisper - tamil - large - v2开源泰米尔语语音识别模型，免费助力泰米尔语语音精准识别

首页

Whisper Tamil Large V2

由 vasista22 开发

基于OpenAI Whisper-large-v2微调的泰米尔语语音识别模型，在多个公开泰米尔语ASR语料库上训练

语音识别其他开源协议:Apache-2.0 #泰米尔语语音识别 #多方言适配 #低词错误率

下载量 325

发布时间 : 1/1/2023

模型简介

专为泰米尔语优化的自动语音识别模型，适用于各种口音和方言的语音转录任务

模型特点

多数据集微调

在6个不同来源的泰米尔语ASR数据集上进行训练，覆盖广泛语音特征

低词错误率

在Common Voice 11.0测试集上WER仅6.61%，Fleurs测试集WER 7.5%

高效推理支持

提供标准transformers和whisper-jax两种推理方案，支持批处理和GPU加速

模型能力

泰米尔语语音转录

长音频处理（支持分块）

口音适应

使用案例

语音转录服务

泰米尔语媒体内容字幕生成

为视频/播客等媒体内容自动生成字幕

在Common Voice测试集上达到93.39%准确率

语音助手开发

泰米尔语语音指令识别

用于开发支持泰米尔语的智能语音助手

🚀 泰米尔语大模型 Whisper Tamil Large-v2

本模型是专为泰米尔语语音识别任务打造的强大工具。它基于 openai/whisper-large-v2 进行微调，利用多个公开可用的自动语音识别（ASR）语料库中的泰米尔语数据进行训练。作为 Whisper 微调冲刺项目的一部分，该模型在泰米尔语语音识别方面表现出色。

📄 许可证

本模型采用 Apache-2.0 许可证。

📊 模型指标

属性	详情
模型类型	Whisper Tamil Large-v2
训练数据	来自多个公开可用的 ASR 语料库的泰米尔语数据
评估指标	在多个数据集上的字错误率（WER）

🏆 评估结果

任务	数据集	WER
自动语音识别	google/fleurs (ta_in 测试集)	7.5
自动语音识别	mozilla-foundation/common_voice_11_0 (ta 测试集)	6.61

🚀 快速开始

评估整个数据集

若要在整个数据集上评估此模型，可使用 whisper-finetune 仓库中的评估代码。

快速推理

同一仓库还提供了使用 whisper-jax 进行快速推理的脚本。

单音频文件推理

若要使用此模型对单个音频文件进行推理，可使用以下代码片段：

>>> import torch
>>> from transformers import pipeline

>>> # 待转录的音频文件路径
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('转录结果: ', transcribe(audio)["text"])

更快推理

若要实现更快的推理，可使用 whisper-jax 库。在使用以下代码片段之前，请按照此处所述完成必要的安装步骤：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # 待转录的音频文件路径
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('转录结果: ', transcribe(audio)["text"])