whisper-tamil-medium开源模型 - 免费支持泰米尔语语音识别的实用工具

首页

Whisper Tamil Medium

由 vasista22 开发

基于多个公开泰米尔语ASR语料库微调的Whisper-medium模型，支持泰米尔语语音识别

语音识别

Transformers

其他开源协议:Apache-2.0 #泰米尔语语音识别 #多语料库微调 #低资源优化

下载量 1,731

发布时间 : 12/21/2022

模型简介

该模型是对openai/whisper-medium进行泰米尔语微调的版本，专门用于泰米尔语语音识别任务，是Whisper微调冲刺项目的一部分。

模型特点

多语料库微调

基于6个公开泰米尔语ASR语料库训练，数据来源丰富

高效推理支持

提供whisper-jax实现支持快速批量推理

完整评估方案

包含在多个测试集上的评估代码和结果

模型能力

泰米尔语语音识别

长音频处理（支持分块）

批量推理

使用案例

语音转录

泰米尔语会议记录

将泰米尔语会议录音转为文字记录

教育内容转录

转录泰米尔语教学音频内容

🚀 泰米尔语中型Whisper模型

本模型是基于多个公开可用的自动语音识别（ASR）语料库中的泰米尔语数据，对 openai/whisper-medium 进行微调后的版本。它是Whisper微调冲刺项目的一部分。

注意：训练此模型的代码可在 whisper-finetune 仓库中复用。

🚀 快速开始

本模型可用于对整个数据集进行评估，评估代码可在 whisper-finetune 仓库中找到。该仓库还提供了使用 whisper-jax 进行快速推理的脚本。

✨ 主要特性

基于多个公开的ASR语料库中的泰米尔语数据对 openai/whisper-medium 进行微调。
作为Whisper微调冲刺项目的一部分进行训练。
提供了评估代码和快速推理脚本。

📦 安装指南

文档未提及具体安装步骤，可参考 whisper-finetune 仓库获取相关信息。

💻 使用示例

基础用法

若要使用此模型对单个音频文件进行推理，可使用以下代码片段：

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-medium", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高级用法

若要使用 whisper-jax 进行快速推理，请先按照此处提到的步骤进行必要的安装，然后使用以下代码片段：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-medium", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 详细文档

训练和评估数据

训练数据

评估数据

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	1e-05
训练批次大小	24
评估批次大小	48
随机种子	22
优化器	adamw_bnb_8bit
学习率调度器类型	linear
学习率调度器热身步数	17500
训练步数	33892（初始设置为84730步）
混合精度训练	True