whisper-kannada-tiny开源语音识别模型 - 免费实现卡纳达语自动语音识别

首页

Whisper Kannada Tiny

由 vasista22 开发

基于openai/whisper-tiny微调的卡纳达语自动语音识别模型，在多个公开卡纳达语ASR语料库上训练

语音识别其他开源协议:Apache-2.0 #卡纳达语语音识别 #低词错误率 #多数据集微调

下载量 119

发布时间 : 12/19/2022

模型简介

专为卡纳达语优化的自动语音识别模型，适用于语音转文本任务

模型特点

卡纳达语优化

专门针对卡纳达语语音特征进行微调

多数据集训练

使用多个公开卡纳达语ASR语料库进行训练

高效推理

支持whisper-jax实现快速批量推理

模型能力

卡纳达语语音识别

长音频处理(支持分块)

实时转录

使用案例

语音转录

会议记录

将卡纳达语会议录音转为文字记录

词错误率13.38%(在Fleurs测试集)

媒体字幕生成

为卡纳达语视频内容生成字幕

🚀 耳语卡纳达语微型模型

该模型是基于多种公开可用的自动语音识别（ASR）语料库中的卡纳达语数据，对 openai/whisper-tiny 进行微调后的版本。它是耳语微调冲刺项目的一部分。

注意：训练该模型的代码可在 whisper-finetune 仓库中复用。

🚀 快速开始

本模型可用于卡纳达语的自动语音识别任务，能对卡纳达语语音进行转录。

✨ 主要特性

基于公开的卡纳达语数据对 openai/whisper-tiny 进行微调，适用于卡纳达语的自动语音识别。
提供了训练代码和评估代码，方便复用和评估。
支持使用 whisper-jax 进行快速推理。

📦 安装指南

原文档未提及具体安装步骤，此处跳过。

💻 使用示例

基础用法

若要对单个音频文件进行推理，可使用以下代码片段：

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-kannada-tiny", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高级用法

若要对整个数据集进行评估，可使用 whisper-finetune 仓库中的评估代码。

若要使用 whisper-jax 进行快速推理，请先按照此处提到的必要安装步骤进行安装，然后使用以下代码片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-kannada-tiny", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 详细文档

训练和评估数据

训练数据

评估数据

训练超参数

训练过程中使用了以下超参数：

学习率：5e-05
训练批次大小：88
评估批次大小：88
随机种子：22
优化器：adamw_bnb_8bit
学习率调度器类型：线性
学习率调度器热身步数：10000
训练步数：15008（收敛后终止，初始设置为 51570 步）
混合精度训练：True

模型评估指标

属性	详情
模型类型	Whisper Kannada Tiny - Vasista Sai Lodagala
任务类型	自动语音识别
数据集	google/fleurs (kn_in 配置，测试分割)
评估指标	WER（字错误率），值为 13.38