W

Wav2vec2 Large Xlsr Persian Shemo

m3hrdadfiによって開発
Wav2Vec2-Large-XLSR-53をペルシア語ShEMOデータセットでファインチューニングした自動音声認識モデル
ダウンロード数 28
リリース時間 : 3/2/2022

モデル概要

このモデルはペルシア語(Farsi)に最適化された自動音声認識(ASR)モデルで、FacebookのWav2Vec2-Large-XLSR-53アーキテクチャを基に、ShEMOペルシア語感情音声データセットでファインチューニングされています。ペルシア語音声からテキストへの変換タスクに適しています。

モデル特徴

ペルシア語最適化
ペルシア語の音声特性に特化して最適化されており、ペルシア語特有のテキスト正規化処理を含みます
感情音声認識
ShEMO感情音声データセットでファインチューニングされており、感情を含むペルシア語音声の認識効果が向上しています
言語モデル不要
追加の言語モデルサポートなしで直接使用可能

モデル能力

ペルシア語音声認識
感情音声処理
16kHz音声処理

使用事例

音声からテキストへ
ペルシア語音声書き起こし
ペルシア語音声コンテンツをテキストに変換
ShEMOテストセットで31%のWERを達成
感情音声分析
感情を含むペルシア語音声コンテンツを認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase