wav2vec2-large-xls-r-300m-turkish-colabオープンソース音声認識モデル

Wav2vec2 Large Xls R 300m Turkish Colab

krirkによって開発

facebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデル

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

これはトルコ語に最適化された音声認識モデルで、wav2vec2-xls-r-300mアーキテクチャをベースにcommon_voiceデータセットで訓練され、トルコ語音声をテキストに変換できます。

高性能トルコ語認識

common_voiceトルコ語テストセットで31.49%の単語誤り率を達成

大規模事前学習モデルベース

facebookのwav2vec2-xls-r-300mモデルをファインチューニングし、強力な音声特徴抽出能力を継承

エンドツーエンド訓練

複雑な特徴量設計なしに、生音声からテキスト出力へのマッピングを直接学習

トルコ語音声認識

音声テキスト変換

連続音声認識

音声文字起こし

トルコ語音声転写

トルコ語音声コンテンツを文字記録に変換

テストセットで31.49%の単語誤り率を達成

音声アシスタント

トルコ語音声コマンド認識

トルコ語音声アシスタントの音声コマンド理解に使用

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.9921	3.67	400	0.7820	0.7857
0.4496	7.34	800	0.4630	0.4977
0.2057	11.01	1200	0.4293	0.4627
0.1328	14.68	1600	0.4464	0.4068
0.1009	18.35	2000	0.4461	0.3742
0.0794	22.02	2400	0.4328	0.3467
0.0628	25.69	2800	0.4036	0.3263
0.0497	29.36	3200	0.3942	0.3149