W

Wav2vec2 Xlsr Multilingual 53 Fa

masoudmzbによって開発
wav2vec 2.0アーキテクチャに基づく多言語音声認識モデルで、ペルシア語向けに特別にファインチューニングされており、単語誤り率を大幅に低減
ダウンロード数 83
リリース時間 : 3/2/2022

モデル概要

このモデルはfacebook/wav2vec2-large-xlsr-53をペルシア語データセットでファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポートし、ペルシア語自動音声認識タスクに適しています

モデル特徴

多言語事前学習基盤
XLSR-53多言語モデルを基にファインチューニングされており、言語横断学習能力の恩恵を受けています
高性能ペルシア語認識
プライベートテストセットでの単語誤り率(WER)はわずか0.408で、ベースモデルよりも大幅に優れています
データ拡張効果
Common Voiceと独自構築データセットを組み合わせてトレーニングし、データ量の増加による性能向上を実現

モデル能力

ペルシア語音声認識
16kHz音声処理
エンドツーエンド音声テキスト変換

使用事例

音声文字起こし
ペルシア語音声転写
ペルシア語音声コンテンツをテキストに変換
単語誤り率0.408
音声アシスタント
ペルシア語音声インタラクション
ペルシア語音声アシスタントに認識能力を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase