whisper-hindi-smallオープンソース音声認識モデル - 無料でデプロイし、印地語音声を高精度に認識

ホーム

Whisper Hindi Small

vasista22によって開発

OpenAI Whisper-smallをファインチューニングしたヒンディー語音声認識モデルで、複数の公開ASRコーパスでトレーニング済み

音声認識その他オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #低い単語誤り率 #マルチシーン適応

ダウンロード数 477

リリース時間 : 1/8/2023

モデル概要

これはヒンディー語に特化して最適化された自動音声認識(ASR)モデルで、OpenAIのWhisper-smallアーキテクチャを基にファインチューニングされています。主にヒンディー語音声をテキストに変換するために使用されます。

モデル特徴

ヒンディー語最適化

ヒンディー語音声認識に特化してファインチューニング済み

複数データセットトレーニング

GramVaani、ULCA、Shrutilipiなどの公開ヒンディー語ASRコーパスでトレーニング済み

効率的な推論サポート

whisper-jaxを使用した加速推論をサポート

モデル能力

ヒンディー語音声認識

長音声処理(チャンク処理対応)

使用事例

音声書き起こし

ヒンディー語音声転写

ヒンディー語音声コンテンツをテキストに変換

🚀 Whisper Hindi Small

このモデルは、複数の公開されている自動音声認識（ASR）コーパスから入手可能なヒンディー語データで、openai/whisper-small をファインチューニングしたバージョンです。Whisperのファインチューニングスプリントの一環としてファインチューニングされました。

⚠️ 重要提示

このモデルを訓練するために使用されたコードは、whisper-finetune リポジトリで再利用可能です。

🚀 クイックスタート

このモデルを使用するには、以下の情報を参考にしてください。

✨ 主な機能

ヒンディー語の自動音声認識に特化したファインチューニング済みモデルです。
複数の公開ASRコーパスのデータを使用して訓練されています。
高速な推論を行うためのスクリプトも提供されています。

📦 インストール

モデルを評価するためのコードや、高速推論用のスクリプトは、whisper-finetune リポジトリにあります。必要に応じてインストールしてください。

💻 使用例

基本的な使用法

単一の音声ファイルをこのモデルで文字起こしするには、次のコードスニペットを使用できます。

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-hindi-small", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高度な使用法

Whisperモデルの高速推論には、whisper-jax ライブラリを使用できます。以下のコードスニペットを使用する前に、こちらに記載されている必要なインストール手順に従ってください。

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-hindi-small", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 ドキュメント

訓練と評価データ

訓練データ

評価データ

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは次の通りです。

属性	詳情
学習率 (learning_rate)	1.75e-05
訓練バッチサイズ (train_batch_size)	48
評価バッチサイズ (eval_batch_size)	32
シード (seed)	22
オプティマイザ (optimizer)	adamw_bnb_8bit
学習率スケジューラのタイプ (lr_scheduler_type)	linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	20000
訓練ステップ (training_steps)	19377 (最初は129180ステップに設定)
混合精度訓練 (mixed_precision_training)	True