wav2vec2-large-lv60_phonemeオープンソース音声認識モデル - 音素認識タスクに特化し、無料で利用可能

ホーム

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k Simplified

excalibur12によって開発

facebook/wav2vec2-large-lv60をベースにTIMITデータセットで微調整された音声認識モデルで、音素識別タスクに特化しています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #音素識別 #TIMIT微調整 #低エラー率

ダウンロード数 271

リリース時間 : 6/17/2024

モデル概要

このモデルは英語の音素識別タスクに最適化された音声認識モデルで、簡略化版のTIMIT音素セットで訓練され、低い音素エラー率を持っています。

モデル特徴

効率的な音素識別

TIMIT評価セットで8.38%の低音素エラー率を達成しました。

簡略化された音素セット

元のTIMIT音素セットを統合して簡略化し、識別効率を向上させました。

事前学習モデルに基づく

facebook/wav2vec2-large-lv60の事前学習モデルをベースに微調整され、強力な音声特徴抽出能力を持っています。

モデル能力

英語音素識別

音声特徴抽出

自動音声認識

使用事例

音声研究

音素分析

音声学や言語学の研究における音素レベルの分析に使用されます。

8.38%の音素エラー率

音声認識システム

音声認識フロントエンド

音声認識システムの音素識別コンポーネントとして使用されます。

🚀 wav2vec2-large-lv60_phoneme-timit_english_timit-4k_simplified

このモデルは、TIMITデータセットでTIMITをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.2796
音素誤り率: 0.0838 (8.38%)

📚 ドキュメント

モデルの説明

TIMIT音素セットの簡略版で学習されています。

想定される用途と制限

統合された音素

元のTIMIT音素セットの各音素の誤り分析に基づいています。
詳細な分析については、このリポジトリを参照してください。
ax-h → ax
axr → er
ix → ih
ux → uw
zh → z
em → m
en → n
eng → ng
nx → n
hv → hh

学習と評価データ

詳細情報が必要です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 0.0001
学習バッチサイズ: 16
評価バッチサイズ: 1
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 300
学習ステップ: 3000
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	音素誤り率
7.3185	1.04	300	3.6437	0.9617
2.5644	2.08	600	0.7668	0.1559
0.6782	3.11	900	0.3794	0.1231
0.4542	4.15	1200	0.3278	0.1164
0.3834	5.19	1500	0.3043	0.1151
0.3407	6.23	1800	0.2872	0.1119
0.3179	7.27	2100	0.2842	0.1110
0.2988	8.3	2400	0.2834	0.1102
0.2834	9.34	2700	0.2826	0.1100
0.2814	10.38	3000	0.2796	0.1100

フレームワークのバージョン

Transformers 4.38.1
Pytorch 2.0.1
Datasets 2.16.1
Tokenizers 0.15.2

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

モデル情報

プロパティ	詳細
モデルタイプ	wav2vec2-large-lv60_phoneme-timit_english_timit-4k_simplified
学習データ	timit-asr/timit_asr
評価指標	per
ライブラリ名	transformers