wav2vec2-base-timit-demo-colab音声認識モデル - オープンソースで無料で高精度な音声認識を実現

Wav2vec2 Base Timit Demo Colab

obokkkkによって開発

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、TIMITデータセットで訓練され、単語誤り率(WER)は0.3468です。

ダウンロード数 20

リリース時間 : 4/20/2022

モデル概要

これは英語音声認識のためのモデルで、wav2vec2アーキテクチャを基にファインチューニングされており、音声をテキストに変換するタスクに適しています。

低い単語誤り率

評価セットで0.3468の単語誤り率(WER)を達成し、良好な性能を示しています。

wav2vec2アーキテクチャ採用

facebookのwav2vec2-baseモデルを基本アーキテクチャとして採用し、強力な音声特徴抽出能力を備えています。

ファインチューニング訓練

TIMITデータセットでファインチューニングを行い、特定の音声認識タスクに最適化されています。

英語音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

英語の会議録音を自動的に文字記録に変換

約65.32%の精度 (1-WER)

音声メモ

英語の音声メモを検索可能なテキストに変換

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.4408	4.0	500	1.2302	0.9116
0.561	8.0	1000	0.4809	0.4320
0.2091	12.0	1500	0.4285	0.3880
0.1221	16.0	2000	0.4448	0.3665
0.0858	20.0	2500	0.4622	0.3585
0.0597	24.0	3000	0.4621	0.3517
0.0453	28.0	3500	0.4779	0.3468