bach-arbオープンソースドイツ語音声認識モデル - 無料でデプロイし、ドイツ語の音声内容を正確に認識

Bach Arb

bkh6722によって開発

jonatasgrosman/wav2vec2-large-xlsr-53-germanを基にファインチューニングしたドイツ語音声認識モデル

ダウンロード数 30

リリース時間 : 5/7/2022

モデル概要

このモデルはドイツ語音声認識タスク向けに最適化された自動音声認識(ASR)モデルで、未知のデータセットでファインチューニング後、61.3%の単語誤り率を達成

ドイツ語音声認識最適化

ドイツ語音声に特化して最適化された認識モデル

wav2vec2アーキテクチャ採用

強力なwav2vec2-large-xlsr-53をベースモデルとして使用

ファインチューニングによる性能向上

ファインチューニングにより評価セットで61.3%の単語誤り率を達成

ドイツ語音声からテキストへの変換

連続音声認識

音声文字起こし

ドイツ語会議議事録

ドイツ語会議録音を自動的に文字記録に変換

単語誤り率約61.3%

ドイツ語音声コマンド認識

ドイツ語音声コマンドや指示を認識

このモデルは、不明なデータセットで jonatasgrosman/wav2vec2-large-xlsr-53-german をファインチューニングしたバージョンです。評価セットでは、以下の結果を達成しています。

このモデルは、特定の音声関連のタスクに対してファインチューニングされており、評価セットで一定の性能を示しています。以下のセクションでは、モデルのトレーニングに関する詳細な情報を提供します。

トレーニング中に使用されたハイパーパラメータは以下の通りです。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
27.8653	7.14	100	3.1369	1.0
2.5975	14.28	200	2.1223	0.9976
1.2001	21.41	300	1.7455	0.8774
0.5938	28.55	400	1.8534	0.7981
0.4001	35.69	500	2.3318	0.7740
0.2895	42.83	600	2.2214	0.7163
0.1853	49.97	700	2.4841	0.7043
0.1318	57.14	800	2.9749	0.7139
0.1067	64.28	900	2.4759	0.7115
0.0635	71.41	1000	2.6708	0.6635
0.0515	78.55	1100	3.0593	0.6923
0.0455	85.69	1200	2.9637	0.6587
0.0329	92.83	1300	2.9837	0.6346
0.0232	99.97	1400	2.9361	0.6178
0.021	107.14	1500	2.9221	0.6010
0.0193	114.28	1600	2.9404	0.6130