xls-r-300m-it-cv8オープンソース音声認識モデル - スウェーデン語データに基づき、低エラー率で高精度な認識

Xls R 300m It Cv8

masapasaによって開発

このモデルはCommon Voiceスウェーデン語データセットを使用してfacebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、評価セットで1.0286の単語誤り率(WER)を達成しました。

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

これはスウェーデン語の自動音声認識(ASR)用のモデルで、Transformerアーキテクチャに基づき、スウェーデン語音声データに特化して最適化されています。

低単語誤り率

Common Voiceスウェーデン語評価セットで1.0286のWERを達成し、優れた性能を発揮

大規模事前学習モデルベース

facebook/wav2vec2-xls-r-300mをファインチューニングしており、強力な音声特徴抽出能力を継承

スウェーデン語に最適化

スウェーデン語データセットで特別にファインチューニングされており、スウェーデン語の認識性能が向上

スウェーデン語音声認識

音声からテキストへの変換

ロバストな音声イベント検出

音声文字起こし

スウェーデン語音声文字起こし

スウェーデン語の音声コンテンツをテキストに変換

単語誤り率1.0286

音声アシスタント

スウェーデン語音声インタラクション

スウェーデン語音声アシスタントの開発に使用

属性	详情
モデルタイプ	ファインチューニングされた音声認識モデル
学習データ	MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SV-SEデータセット

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
10.7838	0.01	5	14.5035	1.0
13.0582	0.03	10	13.6658	1.0
7.3034	0.04	15	9.7898	1.0
... (省略)	...	...	...	...
2.5948	3.1	1130	2.5568	1.0802
2.5372	3.11	1135	2.5638	1.1261
2.4995	3.12	1140	2.5727	1.1395
2.6304	3.14	1145	2.5671	1.0259
2.6395	3.15	1150	2.5778	1.0212