wav2vec2-large-xls-r-300m-trオープンソース音声認識モデル

Wav2vec2 Large Xls R 300m Tr

resul-aiによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルで、評価セットで29.04%の単語誤り率を達成しました。

ダウンロード数 117

リリース時間 : 6/28/2022

モデル概要

これはトルコ語(tr-TR)の自動音声認識(ASR)用モデルで、wav2vec2-xls-r-300mアーキテクチャを基にファインチューニングされています。

大規模事前学習モデルを基にしたファインチューニング

facebookのwav2vec2-xls-r-300mモデルを基にファインチューニングされており、強力な音声特徴抽出能力を継承しています

トルコ語音声認識

トルコ語に特化して最適化された音声認識モデル

比較的高い認識精度

common_voice評価セットで29.04%の単語誤り率を達成

トルコ語音声からテキストへの変換

連続音声認識

音声文字起こし

トルコ語音声文字起こし

トルコ語の音声コンテンツをテキストに変換

単語誤り率29.04%

音声アシスタント

トルコ語音声コマンド認識

トルコ語音声アシスタントシステムでの音声コマンド認識に使用

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.0805	4.03	1000	3.0333	1.0
1.5733	8.06	2000	0.5545	0.5080
0.6238	12.1	3000	0.3861	0.3977
0.4535	16.13	4000	0.3253	0.3408
0.3682	20.16	5000	0.3042	0.3177
0.3302	24.19	6000	0.2950	0.3015
0.2985	28.23	7000	0.2841	0.2904