P

Psst Fairseq Rir

birgermoellによって開発
このモデルはWav2vec 2.0基本アーキテクチャをファインチューニングした自動音声認識(ASR)モデルで、ルームインパルス応答(RIR)で強化されたTIMITサブセットで訓練されています
ダウンロード数 30
リリース時間 : 4/15/2022

モデル概要

英語音素認識のための音声認識モデルで、ノイズ強化環境下で良好な性能を発揮します

モデル特徴

ノイズ耐性
RIR強化データで訓練されており、ノイズ環境下での音声認識に強い耐性を持っています
音素レベル認識
単語や文ではなく、音素レベルの音声認識タスクに特化しています
Wav2vec 2.0ベース
Wav2vec 2.0の自己教師あり学習能力を活用し、小規模な注釈データでも良好な性能を発揮します

モデル能力

英語音素認識
ノイズ環境下の音声処理

使用事例

音声技術研究
音素認識ベンチマークテスト
音素認識タスクの比較用ベンチマークモデルとして使用可能
PER: 21.8%, FER: 9.6%
教育技術
発音評価
言語学習における発音精度の評価に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase