whisper-tamil-mediumオープンソースモデル - タミル語の音声認識を無料でサポートする実用的なツール

ホーム

Whisper Tamil Medium

vasista22によって開発

複数の公開タミル語ASRコーパスに基づいて微調整されたWhisper-mediumモデルで、タミル語音声認識をサポートします。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #タミル語音声認識 #多コーパス微調整 #低リソース最適化

ダウンロード数 1,731

リリース時間 : 12/21/2022

モデル概要

このモデルは、openai/whisper-mediumをタミル語で微調整したバージョンで、タミル語音声認識タスクに特化しており、Whisper微調整スプリントプロジェクトの一部です。

モデル特徴

多コーパス微調整

6つの公開タミル語ASRコーパスに基づいて訓練され、データソースが豊富です。

高効率推論サポート

whisper-jaxの実装を提供し、高速なバッチ推論をサポートします。

完全な評価方案

複数のテストセットでの評価コードと結果が含まれています。

モデル能力

タミル語音声認識

長いオーディオ処理（チャンク分割をサポート）

バッチ推論

使用事例

音声文字起こし

タミル語会議記録

タミル語の会議録音を文字記録に変換します。

教育コンテンツの文字起こし

タミル語の教育用オーディオコンテンツを文字起こしします。

🚀 タミル語ミディアムWhisperモデル

このモデルは、複数の公開されている自動音声認識（ASR）コーパスのタミル語データを使用して、openai/whisper-medium を微調整したバージョンです。Whisper微調整スプリントプロジェクトの一部として開発されました。

⚠️ 重要提示

このモデルを訓練するコードは、whisper-finetune リポジトリで再利用できます。

🚀 クイックスタート

このモデルは、データセット全体の評価に使用できます。評価コードは whisper-finetune リポジトリで見つけることができます。また、このリポジトリには whisper-jax を使用した高速推論用のスクリプトも提供されています。

✨ 主な機能

複数の公開ASRコーパスのタミル語データを使用して openai/whisper-medium を微調整。
Whisper微調整スプリントプロジェクトの一部として訓練。
評価コードと高速推論スクリプトを提供。

📦 インストール

ドキュメントに具体的なインストール手順は記載されていません。whisper-finetune リポジトリを参照してください。

💻 使用例

基本的な使用法

このモデルを使用して単一の音声ファイルを推論するには、以下のコードを使用します。

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-medium", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

高度な使用法

whisper-jax を使用して高速推論を行うには、ここで説明されている手順で必要なインストールを行った後、以下のコードを使用します。

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-medium", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

📚 ドキュメント

訓練と評価データ

訓練データ

評価データ

訓練ハイパーパラメータ

訓練に使用されたハイパーパラメータは以下の通りです。

属性	詳細
学習率	1e-05
訓練バッチサイズ	24
評価バッチサイズ	48
乱数シード	22
オプティマイザ	adamw_bnb_8bit
学習率スケジューラタイプ	linear
学習率スケジューラウォームアップステップ	17500
訓練ステップ	33892（初期設定は84730ステップ）
混合精度訓練	True