wav2vec2 - xls - r - 300m - Br - smallオープンソースモデル - ブルトン語音声認識を無料でデプロイ可能

Wav2vec2 Xls R 300m Br Small

emreによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceデータセットで微調整したバージョンで、ブルトン語(br)の音声認識タスクをサポートします。

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

これはブルトン語に最適化された音声認識モデルで、wav2vec2-xls-r-300mアーキテクチャを基に微調整されており、自動音声認識(ASR)タスクに適しています。

ブルトン語最適化

ブルトン語に特化して微調整されており、この言語の認識精度が向上しています

XLS-Rアーキテクチャ採用

facebookのwav2vec2-xls-r-300mをベースモデルとして使用しており、強力な音声特徴抽出能力を備えています

Common Voiceデータセットで訓練

Common Voiceデータセットで微調整されており、データの多様性と品質が確保されています

音声からテキストへの変換

ブルトン語音声認識

自動音声認識

音声文字起こし

ブルトン語音声文字起こし

ブルトン語の音声内容をテキストに変換

テストセットで66.75%の単語誤り率(WER)を達成

音声アシスタント

ブルトン語音声アシスタント

ブルトン語ユーザー向けの音声インタラクション機能を提供

学習損失	エポック	ステップ	検証損失	単語誤り率 (WER)
5.7464	2.79	400	1.7474	1.1018
1.1117	5.59	800	0.9434	0.8697
0.6481	8.39	1200	0.9251	0.7910
0.4754	11.19	1600	0.9208	0.7412
0.3602	13.98	2000	0.9284	0.7232
0.2873	16.78	2400	0.9299	0.6940
0.2386	19.58	2800	1.0182	0.6927
0.1971	22.38	3200	1.0456	0.6898
0.1749	25.17	3600	1.0208	0.6769
0.1487	27.97	4000	1.0573	0.6675

属性	詳情
モデルタイプ	このモデルはcommon_voiceデータセットでファインチューニングされたwav2vec2-xls-r-300mです。
学習データ	common_voice