whisper-tamil-small开源泰米尔语语音识别模型 - 免费部署实现精准语音转文字

首页

Whisper Tamil Small

由 vasista22 开发

基于OpenAI Whisper-small微调的泰米尔语自动语音识别模型，在多个公开数据集上训练，词错误率表现优异。

语音识别其他开源协议:Apache-2.0 #泰米尔语语音识别 #低词错误率 #多语料库微调

下载量 10.78k

发布时间 : 1/1/2023

模型简介

本模型是专为泰米尔语优化的自动语音识别(ASR)模型，基于Whisper-small架构微调，适用于泰米尔语语音转文本任务。

模型特点

低词错误率

在Common Voice 11.0泰米尔语测试集上WER仅7.95，Fleurs测试集WER 9.11

多数据集训练

融合了6个主流泰米尔语ASR数据集的训练数据

加速推理支持

提供基于whisper-jax的加速推理方案，支持批量处理

模型能力

泰米尔语语音识别

长音频处理(支持分块)

实时转录

使用案例

语音转写

会议记录

将泰米尔语会议录音转为文字记录

高准确率的转录文本

媒体字幕生成

为泰米尔语视频内容自动生成字幕

WER低于10%的准确字幕

语音助手

泰米尔语语音指令识别

用于本地化语音助手开发

🚀 泰米尔语小型Whisper模型

本模型是基于多种公开可用的自动语音识别（ASR）语料库中的泰米尔语数据，对 openai/whisper-small 模型进行微调后的版本。它是Whisper微调冲刺项目的一部分。

注意：训练此模型的代码可在 whisper-finetune 仓库中复用。

🚀 快速开始

本模型可用于对整个数据集进行评估，评估代码可在 whisper-finetune 仓库中找到。该仓库还提供了使用 whisper-jax 进行快速推理的脚本。

✨ 主要特性

基于公开的泰米尔语ASR语料库对 openai/whisper-small 模型进行微调。
提供了评估代码和快速推理脚本，方便使用。

📦 安装指南

使用本模型前，请确保已完成必要的依赖安装。具体安装步骤可参考 whisper-finetune 仓库。

💻 使用示例

基础用法

若要使用本模型对单个音频文件进行转录，可使用以下代码片段：

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-small", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高级用法

若要使用 whisper-jax 库进行快速推理，请先按照此处提到的步骤完成必要的安装，然后使用以下代码片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-small", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 详细文档

训练和评估数据

属性	详情
训练数据	IISc - MILE泰米尔语ASR语料库、[ULCA ASR语料库](https://github.com/Open - Speech - EkStep/ULCA - asr - dataset - corpus#tamil - labelled--total - duration - is - 116024 - hours)、Shrutilipi ASR语料库、[微软语音语料库（印度语言）](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)、Google/Fleurs训练+开发集、Babel ASR语料库
评估数据	[微软语音语料库（印度语言）测试集](https://msropendata.com/datasets/7230b4b1 - 912d - 400e - be58 - f84e0512985e)、Google/Fleurs测试集、IISc - MILE测试集、Babel测试集