whisper - tamil - large - v2開源泰米爾語語音識別模型，免費助力泰米爾語語音精準識別

首頁

Whisper Tamil Large V2

由vasista22開發

基於OpenAI Whisper-large-v2微調的泰米爾語語音識別模型，在多個公開泰米爾語ASR語料庫上訓練

語音識別其他開源協議:Apache-2.0 #泰米爾語語音識別 #多方言適配 #低詞錯誤率

下載量 325

發布時間 : 1/1/2023

模型概述

專為泰米爾語優化的自動語音識別模型，適用於各種口音和方言的語音轉錄任務

模型特點

多數據集微調

在6個不同來源的泰米爾語ASR數據集上進行訓練，覆蓋廣泛語音特徵

低詞錯誤率

在Common Voice 11.0測試集上WER僅6.61%，Fleurs測試集WER 7.5%

高效推理支持

提供標準transformers和whisper-jax兩種推理方案，支持批處理和GPU加速

模型能力

泰米爾語語音轉錄

長音頻處理（支持分塊）

口音適應

使用案例

語音轉錄服務

泰米爾語媒體內容字幕生成

為視頻/播客等媒體內容自動生成字幕

在Common Voice測試集上達到93.39%準確率

語音助手開發

泰米爾語語音指令識別

用於開發支持泰米爾語的智能語音助手

🚀 泰米爾語大模型 Whisper Tamil Large-v2

本模型是專為泰米爾語語音識別任務打造的強大工具。它基於 openai/whisper-large-v2 進行微調，利用多個公開可用的自動語音識別（ASR）語料庫中的泰米爾語數據進行訓練。作為 Whisper 微調衝刺項目的一部分，該模型在泰米爾語語音識別方面表現出色。

📄 許可證

本模型採用 Apache-2.0 許可證。

📊 模型指標

屬性	詳情
模型類型	Whisper Tamil Large-v2
訓練數據	來自多個公開可用的 ASR 語料庫的泰米爾語數據
評估指標	在多個數據集上的字錯誤率（WER）

🏆 評估結果

任務	數據集	WER
自動語音識別	google/fleurs (ta_in 測試集)	7.5
自動語音識別	mozilla-foundation/common_voice_11_0 (ta 測試集)	6.61

🚀 快速開始

評估整個數據集

若要在整個數據集上評估此模型，可使用 whisper-finetune 倉庫中的評估代碼。

快速推理

同一倉庫還提供了使用 whisper-jax 進行快速推理的腳本。

單音頻文件推理

若要使用此模型對單個音頻文件進行推理，可使用以下代碼片段：

>>> import torch
>>> from transformers import pipeline

>>> # 待轉錄的音頻文件路徑
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('轉錄結果: ', transcribe(audio)["text"])

更快推理

若要實現更快的推理，可使用 whisper-jax 庫。在使用以下代碼片段之前，請按照此處所述完成必要的安裝步驟：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # 待轉錄的音頻文件路徑
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('轉錄結果: ', transcribe(audio)["text"])