A

Asr Whisper Large V2 Commonvoice Fa

speechbrainによって開発
これはwhisper-large-v2アーキテクチャに基づく自動音声認識モデルで、CommonVoiceデータセット上のペルシア語に特化して微調整されています。
ダウンロード数 103
リリース時間 : 1/30/2023

モデル概要

このモデルはペルシア語の自動音声認識タスクに使用され、whisperエンコーダ - デコーダアーキテクチャを採用し、CommonVoiceペルシア語データセットで微調整されています。

モデル特徴

高性能ペルシア語認識
CommonVoiceペルシア語テストセットで31.75%の単語誤り率(WER)と9.38%の文字誤り率(CER)を達成しました。
事前学習モデルに基づく
事前学習されたwhisper-large-v2モデルをベースに使用し、エンコーダ部分は凍結されています。
エンドツーエンド学習
システム全体がエンドツーエンド方式で学習され、音声認識のプロセスが簡素化されています。

モデル能力

ペルシア語音声認識
16kHzオーディオ処理
自動オーディオ標準化

使用事例

音声文字起こし
ペルシア語音声文字起こし
ペルシア語の音声内容をテキストに変換します。
テストセットで31.75%の単語誤り率を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase