wav2vec2-large-lv60_音素 - TIMIT_英語_TIMIT - 4kオープンソースモデル

ホーム

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k

excalibur12によって開発

facebook/wav2vec2-large-lv60をファインチューニングした英語音素認識モデルで、TIMITデータセットにおいて10.53%の音素誤り率を達成

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #音素認識 #TIMITデータセット #低PER

ダウンロード数 306

リリース時間 : 6/17/2024

モデル概要

このモデルは英語音素認識タスク向けに最適化された音声処理モデルで、特に音素レベルの音声分析に適しています

モデル特徴

低音素誤り率

TIMITテストセットで10.53%の音素誤り率を達成し、優れた性能を発揮

詳細な音素分析

母音、閉鎖音、摩擦音など様々な音素カテゴリの詳細な誤り分析を提供

wav2vec2アーキテクチャベース

facebookの先進的なwav2vec2-large-lv60モデルをベースとして利用

モデル能力

英語音素認識

音声特徴抽出

音素レベルの誤り分析

使用事例

音声研究

音素認識研究

言語学研究や音声認識システム開発に使用

10.53%の音素誤り率

教育技術

発音評価

言語学習アプリケーションの発音精度評価に使用可能

🚀 wav2vec2-large-lv60_phoneme-timit_english_timit-4k

このモデルは、TIMITデータセット上でfacebook/wav2vec2-large-lv60をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3354
音素誤り率: 0.1053 (10.53%)

🚀 クイックスタート

このモデルは音素認識タスクに使用できます。TIMIT音素セットをベースにしています。

✨ 主な機能

TIMIT音素セットに基づく音素認識

📚 ドキュメント

想定される用途と制限

TIMIT音素セットに基づく音素認識

音素別の誤り

母音音素

Vowel confusion matrix

破裂音音素

Stop_consonant confusion matrix

破擦音音素

Affricate_consonant confusion matrix

摩擦音音素

Fricative_consonant confusion matrix

鼻音音素

Nasal_consonant confusion matrix

半母音/滑音音素

Vowel confusion matrix

学習と評価データ

学習: TIMIT学習データセット (4620サンプル)
テスト: TIMITテストデータセット (1680サンプル)

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 0.0001
学習バッチサイズ: 16
評価バッチサイズ: 1
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 300
学習ステップ: 3000
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	音素誤り率
7.9352	1.04	300	3.7710	0.9617
2.7874	2.08	600	0.9080	0.1929
0.8205	3.11	900	0.4670	0.1492
0.5504	4.15	1200	0.4025	0.1408
0.4632	5.19	1500	0.3696	0.1374
0.4148	6.23	1800	0.3519	0.1343
0.3873	7.27	2100	0.3419	0.1329
0.3695	8.3	2400	0.3368	0.1317
0.3531	9.34	2700	0.3406	0.1320
0.3507	10.38	3000	0.3354	0.1315