W

Wav2vec2 Large Xls R 300m Urdu Cv8 200epochs

omar47によって開発
Common Voiceデータセットでトレーニングされたウルドゥー語音声認識モデル、wav2vec 2.0アーキテクチャ採用
ダウンロード数 20
リリース時間 : 4/20/2022

モデル概要

このモデルはFacebookのwav2vec 2.0アーキテクチャでトレーニングされた大規模音声認識モデルで、ウルドゥー語に特化して最適化されています。Common Voiceデータセットで200エポックのトレーニングを行い、3億のパラメータ規模を有します。

モデル特徴

大規模事前トレーニング
3億パラメータの大規模wav2vec 2.0アーキテクチャを基に、強力な音声特徴抽出能力を有する
ウルドゥー語最適化
ウルドゥー語に特化したトレーニングと最適化が施されており、ウルドゥー語音声認識タスクに適している
長期トレーニング
Common Voiceデータセットで200エポックの十分なトレーニングを実施

モデル能力

ウルドゥー語音声認識
音声からテキストへ
自動音声転写

使用事例

音声転写
ウルドゥー語音声転写
ウルドゥー語音声コンテンツをテキストに変換
単語誤り率(WER)0.7723
音声アシスタント
ウルドゥー語音声アシスタント
ウルドゥー語ユーザー向け音声インタラクション機能を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase