whisper - telugu - baseオープンソースモデル - タミル語の自動音声認識機能を無料で実現

ホーム

Whisper Telugu Base

vasista22によって開発

OpenAI Whisper-baseモデルをファインチューニングしたテルグ語自動音声認識(ASR)モデルで、複数の公開テルグ語データセットで訓練

音声認識その他オープンソースライセンス:Apache-2.0 #テルグ語音声認識 #低単語誤り率 #多方言サポート

ダウンロード数 279

リリース時間 : 12/20/2022

モデル概要

テルグ語音声からテキストへの変換タスク専用の自動音声認識モデルで、Whisperファインチューニングスプリントの一部

モデル特徴

複数データセット訓練

IIIT-H、ULCA、Shrutilipiなど6つの異なるテルグ語ASRコーパスで訓練

効率的なファインチューニング

OpenAI whisper-baseモデルを基にテルグ語の特徴に合わせてファインチューニング

高速推論サポート

whisper-jaxを使用した高速推論をサポートし、処理効率を向上

モデル能力

テルグ語音声認識

長音声処理(チャンク処理対応)

多分野音声文字起こし

使用事例

音声文字起こし

テルグ語会議議事録

テルグ語会議録音を文字記録に変換

単語誤り率(WER)13.39%

音声アシスタント開発

テルグ語音声アシスタントやチャットボットの開発に使用

教育応用

言語学習ツール

学習者がテルグ語の発音とリスニングを練習するのを支援

🚀 Whisper Telugu Base

このモデルは、複数の公開されている自動音声認識（ASR）コーパスから入手可能なテルグ語データで、openai/whisper-base をファインチューニングしたバージョンです。Whisper のファインチューニングスプリントの一環としてファインチューニングされました。

注意: このモデルを学習させるために使用されたコードは、whisper-finetune リポジトリで再利用可能です。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

✨ 主な機能

テルグ語の自動音声認識に特化したファインチューニング済みモデル。
whisper-jaxを使用した高速推論が可能。

📦 インストール

評価コードや推論スクリプトを使用するには、whisper-finetune リポジトリを参照してください。

💻 使用例

基本的な使用法

単一の音声ファイルをこのモデルで推論するには、以下のコードスニペットを使用できます。

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-telugu-base", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高度な使用法

Whisperモデルの高速推論には、whisper-jax ライブラリを使用できます。以下のコードスニペットを使用する前に、こちらに記載されている必要なインストール手順に従ってください。

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-telugu-base", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="te", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 ドキュメント

学習と評価データ

学習データ:

CSTD IIIT-H ASR Corpus
ULCA ASR Corpus
Shrutilipi ASR Corpus
Microsoft Speech Corpus (Indian Languages)
Google/Fleurs Train+Dev set
Babel ASR Corpus

評価データ:

Microsoft Speech Corpus (Indian Languages) Test Set
Google/Fleurs Test Set
OpenSLR
Babel Test Set

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

属性	详情
learning_rate	3.3e-05
train_batch_size	80
eval_batch_size	88
seed	22
optimizer	adamw_bnb_8bit
lr_scheduler_type	linear
lr_scheduler_warmup_steps	15000
training_steps	24174 (収束時に終了。当初は85952ステップに設定)
mixed_precision_training	True