wav2vec2-large-xls-r-300m-sakhaオープンソースモデル - ヤクート語の音声内容を正確に認識する

Wav2vec2 Large Xls R 300m Sakha

infinitejoyによって開発

facebook/wav2vec2 - xls - r - 300mをヤクート語(SAH)データセットで微調整した自動音声認識モデル

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

これはヤクート語に特化して最適化された自動音声認識(ASR)モデルで、XLS - R - 300Mアーキテクチャに基づき、Common Voice 7のヤクート語データセットで微調整されています。

ヤクート語最適化

ヤクート語に特化して微調整されており、この言語では汎用音声モデルよりも優れた性能を発揮します。

XLS - Rアーキテクチャに基づく

強力なXLS - R - 300Mアーキテクチャを採用し、良好な音声特徴抽出能力を備えています。

中規模

3億パラメータの規模で、性能とリソース消費のバランスを取っています。

ヤクート語音声認識

音声からテキストへの変換

ロバストな音声処理

音声文字起こし

ヤクート語音声文字起こし

ヤクート語の音声内容をテキストに変換します。

CER:10.271%, WER:44.196%

音声アシスタント

ヤクート語音声インタラクション

ヤクート語のユーザーに音声インタラクション機能を提供します。

プロパティ	詳細
モデル名	XLS-R-300M - Sakha
タスク	自動音声認識 (Automatic Speech Recognition)
データセット	MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - SAH
評価指標 (テスト)	WER: 44.196, CER: 10.271

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.8597	8.47	500	0.7731	0.7211
1.2508	16.95	1000	0.5368	0.5989
1.1066	25.42	1500	0.5034	0.5533
1.0064	33.9	2000	0.4686	0.5114
0.9324	42.37	2500	0.4927	0.5056
0.876	50.85	3000	0.4734	0.4795
0.8082	59.32	3500	0.4748	0.4799
0.7604	67.8	4000	0.4949	0.4691
0.7241	76.27	4500	0.5090	0.4627
0.6739	84.75	5000	0.4967	0.4452
0.6447	93.22	5500	0.5071	0.4437