wav2vec2 - cv - beオープンソース音声認識モデル - 無料でデプロイ可能で白ロシア語音声を高精度に認識

ホーム

Wav2vec2 Cv Be

alesによって開発

facebook/wav2vec2-baseモデルをCommon Voice 8ベラルーシ語データセットでファインチューニングした自動音声認識システム

音声認識

Transformers

その他オープンソースライセンス:Gpl-3.0 #ベラルーシ語ASR #wav2vec2ファインチューニング #低単語誤り率

ダウンロード数 278

リリース時間 : 4/13/2022

モデル概要

これはベラルーシ語向けの自動音声認識(ASR)モデルで、wav2vec2アーキテクチャに基づき、Mozilla Common Voice 8.0データセットのベラルーシ語部分でファインチューニングされています。

モデル特徴

高精度認識

Common Voice 8テストセットで12.4%の単語誤り率を達成(言語モデル組み合わせ時)

言語モデル統合

KenLMで構築した5-gram言語モデルを含み、認識精度を大幅に向上

ブラウザ互換

ブラウザ内で直接動作可能なインタラクティブデモコンポーネントを提供

モデル能力

ベラルーシ語音声からテキストへ

リアルタイム音声認識

音声コンテンツの文字起こし

使用事例

音声文字起こし

ベラルーシ語音声文字起こし

ベラルーシ語音声コンテンツをテキストに変換

単語誤り率12.4%(テストセット)

音声アシスタント

ベラルーシ語音声インタラクション

ベラルーシ語音声アシスタントに認識能力を提供

🚀 ベラルーシア語用自動音声認識

facebook/wav2vec2-base を mozilla-foundation/common_voice_8_0 be データセットでファインチューニングしたバージョンです。このモデルは、ベラルーシア語の自動音声認識タスクに特化しており、特定のデータセットを用いて精度を向上させています。

🚀 クイックスタート

このモデルは、mozilla-foundation/common_voice_8_0 be データセットの Train、Dev、Test の分割をそのまま利用しています。Validated 分割からの追加データは使用せず、各文の音声は1つのみ使用しています。これは CommonVoice CorporaCreator によるデータ分割の方法です。より良いモデルを構築するためには、Train、Dev、Test 分割にすでに含まれている文に対して、Validated 分割からの追加の音声を利用することができます。

言語モデルは KenLM を使用して構築されました。5-gram の言語モデルは、mozilla-foundation/common_voice_8_0 be データセットの Train + (Other - Dev - Test) 分割の文を使用して構築されました。

ソースコードはこちらで入手できます。

✨ 主な機能

ベラルーシア語の自動音声認識に特化したモデル。
言語モデルを組み合わせることで、全体的な性能を大幅に向上させることができます。

📚 ドキュメント

ブラウザでのモデル実行

このページには、このモデルをブラウザで直接テストできるインタラクティブなデモウィジェットが含まれています。ただし、このウィジェットは音響モデルのみを使用しており、全体的な性能を大幅に向上させる言語モデルは 使用していません。

音響モデル + 言語モデルの完全なパイプライン を試すことができるのは、こちらのスペースページです（ブラウザからも動作します）。

モデル情報

プロパティ	詳細
モデルタイプ	wav2vec2
訓練データ	mozilla-foundation/common_voice_8_0 be
評価指標	WER (Word Error Rate)

モデルの結果

タスク	データセット	評価指標	値
自動音声認識	Common Voice 8	Dev WER	17.61
自動音声認識	Common Voice 8	Test WER	18.7
自動音声認識	Common Voice 8	Dev WER (with LM)	11.5
自動音声認識	Common Voice 8	Test WER (with LM)	12.4