whisper-kannada-tinyオープンソース音声認識モデル - 無料でカンナダ語の自動音声認識を実現

ホーム

Whisper Kannada Tiny

vasista22によって開発

openai/whispertinyを微調整したカンナダ語自動音声認識モデルで、複数の公開カンナダ語ASRコーパスでトレーニング済み

音声認識その他オープンソースライセンス:Apache-2.0 #カンナダ語音声認識 #低い単語誤り率 #複数データセットの微調整

ダウンロード数 119

リリース時間 : 12/19/2022

モデル概要

カンナダ語に最適化された自動音声認識モデルで、音声からテキストへの変換タスクに適しています

モデル特徴

カンナダ語最適化

カンナダ語の音声特性に特化して微調整されています

複数データセットトレーニング

複数の公開カンナダ語ASRコーパスを使用してトレーニングされています

効率的な推論

whisper-jaxによる高速バッチ推論をサポートしています

モデル能力

カンナダ語音声認識

長い音声処理(チャンク分割対応)

リアルタイム書き起こし

使用事例

音声書き起こし

会議議事録

カンナダ語の会議録音を文字記録に変換します

単語誤り率13.38%(Fleursテストセット)

メディア字幕生成

カンナダ語の動画コンテンツに字幕を生成します

🚀 Whisper Kannada Tiny

このモデルは、複数の公開されている自動音声認識（ASR）コーパスから入手可能なカンナダ語データで、openai/whisper-tiny をファインチューニングしたバージョンです。Whisperのファインチューニングスプリントの一環としてファインチューニングされました。

注意: このモデルを訓練するために使用されたコードは、whisper-finetune リポジトリで再利用可能です。

🚀 クイックスタート

このモデルは、複数の公開ASRコーパスからのカンナダ語データで openai/whisper-tiny をファインチューニングしたもので、Whisperファインチューニングスプリントの一環として開発されました。

✨ 主な機能

カンナダ語の自動音声認識に特化したファインチューニング済みモデル。
複数の公開ASRコーパスのデータを使用して訓練。
高速な推論のための whisper-jax をサポート。

💻 使用例

基本的な使用法

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-kannada-tiny", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高度な使用法

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-kannada-tiny", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 ドキュメント

訓練と評価データ

訓練データ

評価データ

訓練ハイパーパラメータ

訓練時には以下のハイパーパラメータが使用されました。

learning_rate: 5e-05
train_batch_size: 88
eval_batch_size: 88
seed: 22
optimizer: adamw_bnb_8bit
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 10000
training_steps: 15008（収束時に終了。初期設定は51570ステップ）
mixed_precision_training: True

謝辞

この作業は Speech Lab, IIT Madras で行われました。この作業のコンピューティングリソースは、インド政府の電子情報技術省（MeitY）の「Bhashini: National Language translation Mission」プロジェクトによって提供されました。

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

Property	Details
Model Type	Whisper Kannada Tiny - Vasista Sai Lodagala
Training Data	複数の公開ASRコーパスからのカンナダ語データ
Evaluation Metrics	WER (13.38 on google/fleurs kn_in test split)