whisper-large-pt-cv11オープンソース音声認識モデル、ポルトガル語の音声内容を高精度で認識

ホーム

Whisper Large Pt Cv11

jonatasgrosmanによって開発

OpenAIのWhisper-large-v2モデルをポルトガル語Common Voice 11データセットでファインチューニングした音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ポルトガル語音声認識 #低単語誤り率 #Common Voiceファインチューニング

ダウンロード数 155

リリース時間 : 12/16/2022

モデル概要

このモデルはポルトガル語に最適化された自動音声認識(ASR)モデルで、Common Voice 11データセットでファインチューニングされており、ポルトガル語音声の文字起こしタスクをサポートします。

モデル特徴

ポルトガル語最適化

ポルトガル語音声認識タスクに特化してファインチューニングされており、元のWhisper-large-v2モデルと比べてポルトガル語認識性能が向上しています

低誤り率

Common Voice 11テストセットで4.82%の単語誤り率(WER)と1.61%の文字誤り率(CER)を達成

句読点認識

大文字小文字と句読点を認識でき、より自然な文字起こし出力をサポート

モデル能力

ポルトガル語音声認識

自動句読点生成

大文字小文字認識

使用事例

音声文字起こし

ポルトガル語音声からテキストへ

ポルトガル語音声コンテンツを句読点付きテキストに変換

Common Voice 11テストセットでWER4.82%

音声アシスタント

ポルトガル語音声コマンド認識

ポルトガル語音声コマンドを認識・理解

🚀 Whisper Large Portuguese

このモデルは、Common Voice 11 のトレーニングと検証データセットを使用して、ポルトガル語で openai/whisper-large-v2 をファインチューニングしたバージョンです。トレーニング中にはすべての検証データセットが使用されておらず、検証データセットから1kのサンプルを抽出し、ファインチューニング中の評価に使用しました。

🚀 クイックスタート

このセクションでは、モデルの基本的な使い方を説明します。

💻 使用例

基本的な使用法

from transformers import pipeline

transcriber = pipeline(
  "automatic-speech-recognition", 
  model="jonatasgrosman/whisper-large-pt-cv11"
)

transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="pt", 
    task="transcribe"
  )
)

transcription = transcriber("path/to/my_audio.wav")

📚 ドキュメント

評価

私は、2つのデータセットのテストデータセットを使用してモデルの評価を行いました。1つは Common Voice 11（ファインチューニングに使用したのと同じデータセット）、もう1つは Fleurs（ファインチューニング中には見ていないデータセット）です。Whisperは大文字小文字と句読点を文字起こしできるため、私は2つの異なるシナリオでモデルの評価を行いました。1つは生テキストを使用するシナリオ、もう1つは正規化されたテキスト（小文字 + 句読点の削除）を使用するシナリオです。さらに、Fleursデータセットについては、数値の文字起こしがないシナリオでモデルを評価しました。このデータセットで数値が記述される方法は、ファインチューニングで使用したデータセット（Common Voice）での記述方法と異なるため、数値の記述方法のこの違いが、Fleursでのこの種の文字起こしに対するモデルのパフォーマンスに影響を与えることが予想されます。

Common Voice 11

モデル	CER	WER
jonatasgrosman/whisper-large-pt-cv11	2.52	9.56
jonatasgrosman/whisper-large-pt-cv11 + テキスト正規化	1.60	4.82
openai/whisper-large-v2	4.32	13.92
openai/whisper-large-v2 + テキスト正規化	2.84	7.02

Fleurs

モデル	CER	WER
jonatasgrosman/whisper-large-pt-cv11	4.88	12.08
jonatasgrosman/whisper-large-pt-cv11 + テキスト正規化	5.46	8.57
jonatasgrosman/whisper-large-pt-cv11 + 数値以外のサンプルのみを保持	2.35	9.00
jonatasgrosman/whisper-large-pt-cv11 + テキスト正規化 + 数値以外のサンプルのみを保持	3.36	6.05
openai/whisper-large-v2	3.52	10.55
openai/whisper-large-v2 + テキスト正規化	4.19	7.04
openai/whisper-large-v2 + 数値以外のサンプルのみを保持	2.61	9.29
openai/whisper-large-v2 + テキスト正規化 + 数値以外のサンプルのみを保持	3.56	6.15