W

Wav2vec2 Xls R 300m Urdu

aasemによって開発
Facebookの3億パラメータの音声認識モデルで、ウルドゥー語に合わせて微調整され、汎用音声8.0ウルドゥー語データセットを基に訓練されています。
ダウンロード数 16
リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2アーキテクチャに基づく自動音声認識(ASR)モデルで、ウルドゥー語に特化して最適化されており、ウルドゥー語の音声をテキストに変換することができます。

モデル特徴

ウルドゥー語最適化
ウルドゥー語に特化して微調整されており、この言語で優れた性能を発揮します。
大規模事前学習
3億パラメータの大規模事前学習モデルを基にしており、強力な音声特徴抽出能力を持っています。
効率的な認識
汎用音声データセットで低い単語誤り率と文字誤り率を達成しています。

モデル能力

ウルドゥー語音声をテキストに変換
音声認識
音声文字起こし

使用事例

音声文字起こし
ウルドゥー語会議記録
ウルドゥー語の会議録音を自動的に文字記録に変換します。
単語誤り率24.59%、文字誤り率6.91%
音声アシスタント
ウルドゥー語ユーザーに音声対話機能を提供します。
教育
言語学習支援
ウルドゥー語学習者の発音評価と文字起こしを支援します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase