wav2vec2-common_voice-tr-demoオープンソースモデル - スウェーデン語の自動音声認識を無料でサポート

Wav2vec2 Common Voice Tr Demo

birgermoellによって開発

このモデルはfacebook/wav2vec2-large-xlsr-53をCOMMON_VOICE SV-SEデータセットでファインチューニングした自動音声認識(ASR)モデルで、スウェーデン語音声認識をサポートします。

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

これはスウェーデン語向けの自動音声認識モデルで、wav2vec2アーキテクチャに基づき、Common Voiceデータセットでファインチューニングされており、スウェーデン語音声をテキストに変換するために使用できます。

スウェーデン語音声認識

スウェーデン語に特化して最適化された音声認識能力

wav2vec2アーキテクチャ採用

facebookのwav2vec2-large-xlsr-53をベースモデルとして採用

Common Voiceデータセットでファインチューニング

Common Voice SV-SEデータセットでファインチューニングを実施

スウェーデン語音声からテキストへの変換

自動音声認識

音声書き起こし

スウェーデン語音声転写

スウェーデン語音声コンテンツを編集可能なテキスト形式に変換

単語誤り率(WER)は0.3811

音声アシスタント

スウェーデン語音声コマンド認識

スウェーデン語音声アシスタントの音声コマンド認識に使用

このモデルは、COMMON_VOICE - SV-SEデータセット上でfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、自動音声認識タスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

学習中に以下のハイパーパラメータが使用されました。

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
No log	0.74	100	3.4444	1.0
No log	1.47	200	2.9421	1.0
No log	2.21	300	2.2802	1.0137
No log	2.94	400	0.9683	0.7611
3.7264	3.68	500	0.7941	0.6594
3.7264	4.41	600	0.6695	0.5751
3.7264	5.15	700	0.6507	0.5314
3.7264	5.88	800	0.5731	0.4927
3.7264	6.62	900	0.5723	0.4580
0.4592	7.35	1000	0.5913	0.4479
0.4592	8.09	1100	0.5562	0.4423
0.4592	8.82	1200	0.5566	0.4292
0.4592	9.56	1300	0.5492	0.4303
0.4592	10.29	1400	0.5665	0.4331
0.2121	11.03	1500	0.5610	0.4084
0.2121	11.76	1600	0.5703	0.4014
0.2121	12.5	1700	0.5669	0.3898
0.2121	13.24	1800	0.5586	0.3962
0.2121	13.97	1900	0.5656	0.3897
0.1326	14.71	2000	0.5565	0.3813