W

Wav2vec2 Xls R 300m Timit Phoneme

vitouphyによって開発
これはfacebook/wav2vec2-xls-r-300mモデルをTIMITデータセットでファインチューニングした自動音素認識モデルで、主に英語音声の音素レベル認識に使用されます。
ダウンロード数 8,457
リリース時間 : 5/8/2022

モデル概要

このモデルは英語音声の音素認識タスク専用に設計され、TIMITデータセットで訓練されており、音声信号を対応する音素シーケンスに変換できます。

モデル特徴

高精度音素認識
TIMITテストセットで7.996%の文字誤り率(CER)を達成
大規模事前学習モデルベース
facebook/wav2vec2-xls-r-300mモデルをファインチューニングしており、強力な音声特徴抽出能力を継承
エンドツーエンド処理能力
複雑な前処理ステップなしで生の音声入力を直接処理可能

モデル能力

英語音素認識
音声信号処理
エンドツーエンド音声認識

使用事例

音声学研究
音素分析
音声学研究において発音特徴や音素分布を分析するために使用
音声認識システム開発
音声認識フロントエンド
音声認識システムの音素認識コンポーネントとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase