W

Wav2vec2 Large Xls R 300m Hi Cv8 B2

DrishtiSharmaによって開発
これはFacebookのwav2vec2 - xls - r - 300mモデルをヒンディー語のCommon Voice 8.0データセットで微調整した自動音声認識(ASR)モデルです。
ダウンロード数 22
リリース時間 : 3/2/2022

モデル概要

このモデルはヒンディー語の自動音声認識タスクに特化しており、Common Voice 8.0データセットで訓練され、低い単語誤り率(WER)を達成しています。

モデル特徴

高性能ヒンディー語認識
Common Voice 8.0ヒンディー語テストセットで38.9%の単語誤り率(WER)と13.0%の文字誤り率(CER)を達成しました。
XLS - Rアーキテクチャに基づく
Facebookのwav2vec2 - XLS - R - 300mをベースモデルとして使用し、強力な音声特徴抽出能力を持っています。
細かい調整
35エポックの訓練を行い、線形学習率スケジューリングとウォームアップ戦略を使用してモデルの性能を最適化しました。

モデル能力

ヒンディー語音声認識
音声をテキストに変換
ロバストな音声イベント検出

使用事例

音声文字起こし
ヒンディー語音声をテキストに変換
ヒンディー語の音声内容をテキストに変換します。
テストセットで38.9% WERに達しました。
音声アシスタント
ヒンディー語音声コマンド認識
ヒンディー語の音声コマンドを認識し理解します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase