whisper - tamil - large - v2 オープンソースタミル語音声認識モデル、無料でタミル語音声の高精度認識をサポート

ホーム

Whisper Tamil Large V2

vasista22によって開発

OpenAI Whisper-large-v2をファインチューニングしたタミル語音声認識モデルで、複数の公開タミル語ASRコーパスでトレーニング済み

音声認識その他オープンソースライセンス:Apache-2.0 #タミル語音声認識 #多方言対応 #低単語誤り率

ダウンロード数 325

リリース時間 : 1/1/2023

モデル概要

タミル語に最適化された自動音声認識モデルで、様々なアクセントや方言の音声転写タスクに適しています

モデル特徴

複数データセットファインチューニング

6つの異なるソースのタミル語ASRデータセットでトレーニングされ、幅広い音声特性をカバー

低単語誤り率

Common Voice 11.0テストセットでWERはわずか6.61%、FleursテストセットでWER 7.5%

効率的な推論サポート

標準transformersとwhisper-jaxの2つの推論ソリューションを提供し、バッチ処理とGPUアクセラレーションをサポート

モデル能力

タミル語音声転写

長音声処理（チャンク分割対応）

アクセント適応

使用事例

音声転写サービス

タミル語メディアコンテンツ字幕生成

動画/ポッドキャストなどのメディアコンテンツに自動的に字幕を生成

Common Voiceテストセットで93.39%の精度を達成

音声アシスタント開発

タミル語音声コマンド認識

タミル語対応のスマート音声アシスタント開発に使用

🚀 Whisper Tamil Large-v2

このモデルは、複数の公開されている自動音声認識（ASR）コーパスから入手可能なタミル語データを使用して、openai/whisper-large-v2 をファインチューニングしたバージョンです。Whisperファインチューニングスプリントの一環としてファインチューニングされました。

注意: このモデルを訓練するために使用されたコードは、whisper-finetune リポジトリで再利用可能です。

🚀 クイックスタート

このモデルを使用するには、以下の情報を参考にしてください。

💻 使用例

基本的な使用法

単一の音声ファイルをこのモデルで文字起こしするには、次のコードスニペットを使用できます。

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高度な使用法

Whisperモデルの高速推論には、whisper-jax ライブラリを使用できます。以下のコードスニペットを使用する前に、こちらに記載されている必要なインストール手順に従ってください。

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])