W

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Plus Data Augmentation Russian

Edressonによって開発
FacebookのWav2vec2 Large 100k Voxpopuliモデルをベースに、Common Voice 7.0、M-AILABSデータセットおよびデータ拡張技術を使用してロシア語で微調整された音声認識モデルです。
ダウンロード数 23
リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)システムで、ロシア語に特化して最適化されており、ロシア語の音声をテキストに変換することができます。

モデル特徴

複数データセットの微調整
Common Voice 7.0とM-AILABSデータセットを使用して学習を行い、モデルの認識精度を向上させました。
データ拡張技術
TTSと音声変換に基づくデータ拡張方法を採用し、モデルの汎化能力を強化しました。
ロシア語最適化
ロシア語の音声特性に特化して最適化されており、ロシア語の認識タスクで優れた性能を発揮します。

モデル能力

ロシア語音声認識
音声をテキストに変換
自動音声認識

使用事例

音声文字起こし
ロシア語音声の文字起こし
ロシア語の音声内容を自動的にテキストに変換します。
Common Voice 7.0テストセットで19.46%の単語誤り率を達成しました。
音声アシスタント
ロシア語音声指令の認識
ロシア語の音声アシスタントでの音声指令認識に使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase