wav2vec2-latino40オープンソース音声認識モデル - ラテン語系音声処理を無料でデプロイサポート

Wav2vec2 Latino40

cristinakuoによって開発

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、ラテン語系の音声処理をサポート

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはfacebook/wav2vec2-baseを未知のデータセットでファインチューニングしたバージョンで、主に音声認識タスクに使用されます。評価結果では単語誤り率(WER)が1.0でした。

高効率音声認識

wav2vec2アーキテクチャに基づき、効率的な音声認識能力を提供

ファインチューニング最適化

ベースモデルをファインチューニングし、特定の音声特徴に最適化されている可能性があります

低単語誤り率

評価セットで1.0の単語誤り率を達成

音声認識

音声からテキストへの変換

音声処理

音声文字起こし

音声内容をテキストに変換

単語誤り率1.0

音声アシスタント

音声アシスタントのバックエンド認識エンジンとして使用

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声関連のタスクに使用できます。具体的な使用方法については、以下のセクションを参照してください。

モデルに関する詳細な情報は、これから追加予定です。

想定される用途と制限に関する詳細な情報は、これから追加予定です。

学習と評価に使用したデータに関する詳細な情報は、これから追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.6846	0.83	100	2.9086	1.0
2.8686	1.67	200	2.8922	1.0
2.8805	2.5	300	2.9326	1.0
2.8613	3.33	400	2.8698	1.0
2.8643	4.17	500	2.9027	1.0
2.8688	5.0	600	2.9544	1.0
2.8689	5.83	700	2.8914	1.0
2.8558	6.67	800	2.8762	1.0
2.8537	7.5	900	2.8982	1.0
2.8522	8.33	1000	2.8820	1.0
2.8468	9.17	1100	2.8760	1.0
2.8454	10.0	1200	2.8795	1.0