wav2vec2-large-xls-r-300m-turkish-colabオープンソース音声認識モデル

Wav2vec2 Large Xls R 300m Turkish Colab

dperezjrによって開発

このモデルは、common_voiceトルコ語データセットでfacebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、評価セットで30.36%の単語誤り率を達成しました。

ダウンロード数 96

リリース時間 : 6/30/2022

モデル概要

これはトルコ語に最適化された自動音声認識(ASR)モデルで、Facebookのwav2vec2-xls-r-300mアーキテクチャを基にファインチューニングされており、トルコ語の音声からテキストへの変換タスクに適しています。

トルコ語最適化

トルコ語に特化してファインチューニングされており、この言語において汎用音声認識モデルよりも優れた性能を発揮します

XLS-Rアーキテクチャ採用

Facebookの強力なwav2vec2-xls-r-300mアーキテクチャを採用しており、優れた音声特徴抽出能力を備えています

低い単語誤り率

評価セットで30.36%の単語誤り率を達成し、特定言語モデルとして良好な性能を示しています

トルコ語音声認識

音声からテキストへの変換

音声コンテンツの文字起こし

音声文字起こし

トルコ語会議議事録

トルコ語の会議録音を自動的に文字記録に変換

約70%の精度（30.36%の単語誤り率に基づく推定）

音声アシスタント

トルコ語音声アシスタントに音声認識機能を提供

教育アプリケーション

言語学習支援

トルコ語学習者の発音正確性チェックを支援

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.0054	3.67	400	0.7096	0.6999
0.4061	7.34	800	0.4152	0.4637
0.1797	11.01	1200	0.4008	0.4164
0.1201	14.68	1600	0.4275	0.4152
0.0937	18.35	2000	0.4297	0.3978
0.074	22.02	2400	0.3670	0.3618
0.0602	25.69	2800	0.3875	0.3129
0.0472	29.36	3200	0.3783	0.3036