wav2vec2_base_10k_8khz_pt_cv7_2オープンソースモデル - 無料でデプロイ可能、8kHzポルトガル語音声認識をサポート

ホーム

Wav2vec2 Base 10k 8khz Pt Cv7 2

lgrisによって開発

このモデルはwav2vec2アーキテクチャに基づくポルトガル語自動音声認識モデルで、Common Voice 7データセットで微調整されており、8kHzサンプリングレートのオーディオ入力をサポートします。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ポルトガル語音声認識 #8kHzオーディオ最適化 #Common Voice微調整

ダウンロード数 24

リリース時間 : 3/2/2022

モデル概要

wav2vec2アーキテクチャに基づくポルトガル語音声認識モデルで、8kHzサンプリングレートのオーディオに最適化され、Common Voice 7データセットで微調整されており、ポルトガル語音声からテキストへの変換タスクに適しています。

モデル特徴

ポルトガル語最適化

ポルトガル語音声認識タスクに特化して最適化および微調整されています

8kHzサンプリングレートサポート

8kHzサンプリングレートのオーディオ入力をサポートし、電話品質の音声認識に適しています

Common Voice 7微調整

Mozilla Common Voice 7ポルトガル語データセットで微調整されています

モデル能力

ポルトガル語音声認識

8kHzオーディオ処理

自動音声からテキストへの変換

使用事例

音声書き起こし

ポルトガル語音声転写

ポルトガル語の音声内容をテキストに変換

Common Voice 7テストセットでWERが36.9

音声アシスタント

ポルトガル語音声コマンド認識

ポルトガル語の音声コマンドを認識し理解

🚀 wav2vec2_base_10k_8khz_pt_cv7_2

このモデルは、common_voiceデータセット上でlgris/seasr_2022_base_10k_8khz_ptをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 76.3426
単語誤り率 (Wer): 0.1979

📦 モデル情報

属性	詳情
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
訓練データ	mozilla-foundation/common_voice_7_0
ライセンス	apache-2.0

📊 評価結果

このモデルは、以下のデータセットで評価され、次の結果を得ています。

Common Voice 7

損失: 76.3426
単語誤り率 (Wer): 0.1979
文字誤り率 (Cer): 0.1482

Robust Speech Event - Dev Data (sv)

単語誤り率 (Wer): 0.4053
文字誤り率 (Cer): 0.1695

Robust Speech Event - Dev Data (pt)

単語誤り率 (Wer): 0.3715

Robust Speech Event - Test Data (pt)

単語誤り率 (Wer): 0.3895

🔧 訓練手順

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 1e-05
訓練バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
シード (seed): 42
勾配累積ステップ (gradient_accumulation_steps): 2
総訓練バッチサイズ (total_train_batch_size): 16
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラのタイプ (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 100
訓練ステップ数 (training_steps): 10000

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
189.1362	0.65	500	80.6347	0.2139
174.2587	1.3	1000	80.2062	0.2116
164.676	1.95	1500	78.2161	0.2073
176.5856	2.6	2000	78.8920	0.2074
164.3583	3.25	2500	77.2865	0.2066
161.414	3.9	3000	77.8888	0.2048
158.283	4.55	3500	77.3472	0.2033
159.2265	5.19	4000	79.0953	0.2036
156.3967	5.84	4500	76.6855	0.2029
154.2743	6.49	5000	77.7785	0.2015
156.6497	7.14	5500	77.1220	0.2033
157.3038	7.79	6000	76.2926	0.2027
162.8151	8.44	6500	76.7602	0.2013
151.8613	9.09	7000	77.4777	0.2011
153.0225	9.74	7500	76.5206	0.2001
157.52	10.39	8000	76.1061	0.2006
145.0592	11.04	8500	76.7855	0.1992
150.0066	11.69	9000	76.0058	0.1988
146.8128	12.34	9500	76.2853	0.1987
146.9148	12.99	10000	76.3426	0.1979