wav2vec2-5オープンソース音声認識モデル - 無料デプロイで自動音声認識タスクをサポート

Wav2vec2 5

chrisvinsenによって開発

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、主に自動音声認識(ASR)タスクに使用されます

ダウンロード数 20

リリース時間 : 5/22/2022

モデル概要

このモデルはwav2vec2-baseアーキテクチャをファインチューニングした音声認識モデルで、音声をテキストに変換するタスクに適しています。

wav2vec2アーキテクチャベース

Facebook Researchが開発したwav2vec2-baseアーキテクチャを採用しており、優れた音声特徴抽出能力を有しています

ファインチューニング最適化

ベースモデルに対してファインチューニングを実施し、特定の音声認識タスク向けに最適化されている可能性があります

音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換

音声メモ

音声メモを検索可能なテキストに変換

支援技術

リアルタイム字幕生成

動画やライブ配信のコンテンツに対してリアルタイムで字幕を生成

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.4082	1.37	200	3.3181	1.0
2.8798	2.74	400	2.9921	1.0
2.8703	4.11	600	3.1937	1.0
2.8643	5.48	800	3.0304	1.0
2.8655	6.85	1000	3.0321	1.0
2.8655	8.22	1200	3.0716	1.0
2.863	9.59	1400	3.1764	1.0
2.8567	10.96	1600	3.0600	1.0
2.861	12.33	1800	3.1761	1.0
2.8606	13.7	2000	3.1028	1.0
2.8613	15.07	2200	3.2119	1.0
2.8612	16.44	2400	3.1158	1.0
2.8603	17.81	2600	3.1230	1.0
2.8601	19.18	2800	3.0380	1.0
2.856	20.55	3000	3.0729	1.0
2.8557	21.92	3200	3.0511	1.0
2.8556	23.29	3400	3.0710	1.0
2.8552	24.66	3600	3.1364	1.0
2.8574	26.03	3800	3.0104	1.0
2.8543	27.4	4000	3.1068	1.0
2.8558	28.77	4200	3.0700	1.0