xlsr - wav2vec2 - 2オープンソース音声認識モデル - 無料で多言語音声をテキストに変換する

Xlsr Wav2vec2 2

chrisvinsenによって開発

facebook/wav2vec2-large-xlsr-53をファインチューニングした音声認識モデルで、多言語音声からテキストへの変換タスクをサポート

ダウンロード数 20

リリース時間 : 5/25/2022

モデル概要

このモデルはfacebook/wav2vec2-large-xlsr-53を基にファインチューニングしたバージョンで、音声認識タスクに特化しており、音声をテキストに変換可能

多言語サポート

XLSR-53アーキテクチャに基づき、複数言語の音声認識をサポート可能

効率的なファインチューニング

ベースモデル上でファインチューニングを行い、特定タスクの性能を向上

低単語誤り率

評価データセットで0.4301の単語誤り率(WER)を達成

音声認識

音声からテキストへ

多言語処理

音声文字起こし

会議議事録

会議録音を自動的に文字記録に変換

単語誤り率0.4301

音声メモ

音声メモを検索可能なテキストに変換

支援技術

リアルタイム字幕生成

動画やライブコンテンツのためのリアルタイム字幕生成

このモデルは、facebook/wav2vec2-large-xlsr-53 を None データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法については、Hugging Face のドキュメントを参照してください。

訓練中に以下のハイパーパラメータが使用されました。

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
6.6058	1.38	400	3.1894	1.0
2.3145	2.76	800	0.7193	0.7976
0.6737	4.14	1200	0.5338	0.6056
0.4651	5.52	1600	0.5699	0.6007
0.3968	6.9	2000	0.4608	0.5221
0.3281	8.28	2400	0.5264	0.5209
0.2937	9.65	2800	0.5366	0.5096
0.2619	11.03	3200	0.4902	0.5021
0.2394	12.41	3600	0.4706	0.4908
0.2139	13.79	4000	0.5526	0.4871
0.2034	15.17	4400	0.5396	0.5108
0.1946	16.55	4800	0.4959	0.4866
0.1873	17.93	5200	0.4898	0.4877
0.1751	19.31	5600	0.5488	0.4932
0.1668	20.69	6000	0.5645	0.4986
0.1638	22.07	6400	0.5367	0.4946
0.1564	23.45	6800	0.5282	0.4898
0.1566	24.83	7200	0.5489	0.4841
0.1522	26.21	7600	0.5439	0.4821
0.1378	27.59	8000	0.5796	0.4866
0.1459	28.96	8400	0.5603	0.4875
0.1406	30.34	8800	0.6773	0.5005
0.1298	31.72	9200	0.5858	0.4827
0.1268	33.1	9600	0.6007	0.4790
0.1204	34.48	10000	0.5716	0.4734
0.113	35.86	10400	0.5866	0.4748
0.1088	37.24	10800	0.5790	0.4752
0.1074	38.62	11200	0.5966	0.4721
0.1018	40.0	11600	0.5720	0.4668
0.0968	41.38	12000	0.5826	0.4698
0.0874	42.76	12400	0.5937	0.4634
0.0843	44.14	12800	0.6056	0.4640
0.0822	45.52	13200	0.5531	0.4569
0.0806	46.9	13600	0.5669	0.4484
0.072	48.28	14000	0.5683	0.4484
0.0734	49.65	14400	0.5735	0.4437
0.0671	51.03	14800	0.5455	0.4394
0.0617	52.41	15200	0.5838	0.4365
0.0607	53.79	15600	0.6233	0.4397
0.0593	55.17	16000	0.5649	0.4340
0.0551	56.55	16400	0.5923	0.4392
0.0503	57.93	16800	0.5858	0.4325
0.0496	59.31	17200	0.5884	0.4301