whisper-telugu-large-v2オープンソース音声認識モデル - テルグ語の音声内容を高精度で認識

ホーム

Whisper Telugu Large V2

vasista22によって開発

OpenAI Whisper-large-v2をファインチューニングしたテルグ語自動音声認識モデルで、複数の公開テルグ語データセットで訓練

音声認識その他オープンソースライセンス:Apache-2.0 #テルグ語音声認識 #低単語誤り率 #多コーパス訓練

ダウンロード数 156

リリース時間 : 12/20/2022

モデル概要

テルグ語に特化して最適化された音声認識モデルで、テルグ語音声を正確にテキストに変換可能

モデル特徴

テルグ語最適化

テルグ語に特化してファインチューニングされており、より正確な音声認識効果を提供

複数データセット訓練

CSTD IIIT-H、ULCA、Shrutilipiなどの公開テルグ語ASRコーパスで訓練

効率的な推論サポート

whisper-jaxを使用した高速推論をサポート

モデル能力

テルグ語音声認識

長音声処理（チャンク処理対応）

多分野音声転写

使用事例

音声転写

会議議事録

テルグ語会議録音を文字記録に変換

メディア字幕生成

テルグ語動画コンテンツの字幕生成

音声アシスタント

テルグ語音声インタラクション

テルグ語音声コマンド認識をサポート

🚀 Whisper Telugu Large-v2

このモデルは、複数の公開されている自動音声認識（ASR）コーパスから入手可能なテルグ語データで、openai/whisper-large-v2 をファインチューニングしたバージョンです。Whisperのファインチューニングスプリントの一環としてファインチューニングされました。

注意: このモデルをトレーニングするために使用されたコードは、whisper-finetune リポジトリで再利用可能です。

🚀 クイックスタート

このモデルを使用するには、以下の情報を参考にしてください。

✨ 主な機能

テルグ語の自動音声認識に特化したファインチューニング済みモデル。
複数の公開ASRコーパスのデータを使用してトレーニング。
whisper-jaxを使用した高速推論のサポート。

📦 インストール

このモデルを使用するために必要な依存関係は、whisper-finetune リポジトリに記載されています。

💻 使用例

基本的な使用法

単一の音声ファイルを認識するには、以下のコードを使用します。

>>> import torch
>>> from transformers import pipeline

>>> # 文字起こしする音声ファイルのパス
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-large-v2", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高度な使用法

whisper-jaxを使用した高速推論には、以下のコードを使用します。ただし、事前にこちらに記載されたインストール手順を実行する必要があります。

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # 文字起こしする音声ファイルのパス
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-large-v2", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 ドキュメント

トレーニングと評価データ

トレーニングデータ

CSTD IIIT-H ASR Corpus
ULCA ASR Corpus
Shrutilipi ASR Corpus
Microsoft Speech Corpus (Indian Languages)
Google/Fleurs Train+Dev set
Babel ASR Corpus

評価データ

Microsoft Speech Corpus (Indian Languages) Test Set
Google/Fleurs Test Set
OpenSLR
Babel Test Set

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
learning_rate	0.75e-05
train_batch_size	8
eval_batch_size	32
seed	22
optimizer	adamw_bnb_8bit
lr_scheduler_type	linear
lr_scheduler_warmup_steps	22000
training_steps	75000
mixed_precision_training	True