W

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Russian

Edressonによって開発
これはFacebookのwav2vec2-large-100k-voxpopuliモデルをベースに、Common Voice 7.0とM-AILABSのロシア語データを用いて微調整された音声認識モデルです。
ダウンロード数 25
リリース時間 : 3/2/2022

モデル概要

このモデルは主にロシア語の音声認識タスクに使用され、ロシア語の音声をテキストに変換することができます。

モデル特徴

高精度のロシア語音声認識
Common Voice 7.0のロシア語テストセットで24.80%の単語誤り率(WER)を達成しました。
多データソースによる訓練
Common VoiceとM-AILABSの2つの高品質なロシア語音声データセットを組み合わせて微調整しました。
Transformerアーキテクチャに基づく
先進的なwav2vec2アーキテクチャを採用し、強力な音声特徴抽出能力を持っています。

モデル能力

ロシア語音声認識
音声をテキストに変換
オーディオ処理

使用事例

音声文字起こし
ロシア語音声の文字起こし
ロシア語の音声内容をテキスト形式に変換する
単語誤り率24.80%
音声アシスタント
ロシア語音声指令の認識
ロシア語の音声アシスタントやスマートホーム機器の音声指令認識に使用する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase