whisper-large-zh-cv11オープンソース音声認識モデル - 無料でデプロイし、中国語の普通話を正確に認識可能

ホーム

Whisper Large Zh Cv11

jonatasgrosmanによって開発

openai/whisper-large-v2をベースに、中国語(北京語)向けにCommon Voice 11データセットでファインチューニングした音声認識モデル

音声認識

Transformers

中国語オープンソースライセンス:Apache-2.0 #中国語音声認識 #低CER性能 #多シーン適応

ダウンロード数 145

リリース時間 : 12/18/2022

モデル概要

このモデルは中国語(北京語)向けに最適化された自動音声認識(ASR)モデルで、Common Voice 11データセットでファインチューニングされており、中国語音声認識の精度が大幅に向上しています。

モデル特徴

中国語最適化

中国語北京語向けに特別にファインチューニングされており、中国語音声認識精度が大幅に向上しています

多シーン評価

Common VoiceとFleursの2つのデータセットで包括的な評価を行い、オリジナルテキストと標準化テキストの両方のシナリオを含みます

句読点サポート

音声中の句読点を認識し転写することができます

モデル能力

北京語音声認識

句読点認識

大文字小文字変換

使用事例

音声テキスト化

会議議事録

中国語会議録音を自動的に文字記録に変換

Common VoiceテストセットでCERが9.55%、WERが55.02%

音声メモ

個人の音声メモをテキストに変換

音声アシスタント

中国語音声コマンド認識

スマートホームやモバイルデバイス向けの中国語音声コマンド認識

🚀 Whisper Large Chinese (Mandarin)

このモデルは、Common Voice 11 のトレーニングと検証データセットを使用して、中国語（北京語）で openai/whisper-large-v2 をファインチューニングしたバージョンです。トレーニング中にはすべての検証データが使用されていません。私は検証データから1kのサンプルを抽出し、ファインチューニング中の評価に使用しました。

🚀 クイックスタート

💻 使用例

基本的な使用法

from transformers import pipeline

transcriber = pipeline(
  "automatic-speech-recognition", 
  model="jonatasgrosman/whisper-large-zh-cv11"
)

transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="zh", 
    task="transcribe"
  )
)

transcription = transcriber("path/to/my_audio.wav")

📚 ドキュメント

評価

私は2つのデータセット、Common Voice 11（ファインチューニングに使用したのと同じデータセット）と Fleurs（ファインチューニング中に見たことのないデータセット）のテストデータを使用して、モデルの評価を行いました。Whisperは大文字小文字と句読点を記述できるため、私は2つの異なるシナリオでモデルの評価を行いました。1つは生テキストを使用し、もう1つは正規化されたテキスト（小文字 + 句読点の削除）を使用しました。さらに、Fleursデータセットについては、数値の記述方法がファインチューニングに使用したデータセット（Common Voice）と異なるため、数値の記述方法の違いがFleursでのこの種の文字起こしのモデルのパフォーマンスに影響することが予想されるシナリオでモデルを評価しました。

Common Voice 11

モデル	CER	WER
jonatasgrosman/whisper-large-zh-cv11	9.31	55.94
jonatasgrosman/whisper-large-zh-cv11 + テキスト正規化	9.55	55.02
openai/whisper-large-v2	33.33	101.80
openai/whisper-large-v2 + テキスト正規化	29.90	95.91

Fleurs

モデル	CER	WER
jonatasgrosman/whisper-large-zh-cv11	15.00	93.45
jonatasgrosman/whisper-large-zh-cv11 + テキスト正規化	11.76	70.63
jonatasgrosman/whisper-large-zh-cv11 + 数値以外のサンプルのみを保持	10.95	87.91
jonatasgrosman/whisper-large-zh-cv11 + テキスト正規化 + 数値以外のサンプルのみを保持	7.83	62.12
openai/whisper-large-v2	23.49	101.28
openai/whisper-large-v2 + テキスト正規化	17.58	83.22
openai/whisper-large-v2 + 数値以外のサンプルのみを保持	21.03	101.95
openai/whisper-large-v2 + テキスト正規化 + 数値以外のサンプルのみを保持	15.22	79.28