wav2vec2-large-xlsr-tamil-commonvoiceオープンソース音声認識モデル

Wav2vec2 Large Xlsr Tamil Commonvoice

nikhil6041によって開発

このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceタミル語データセットでファインチューニングした音声認識モデルです

ダウンロード数 43

リリース時間 : 3/2/2022

モデル概要

タミル語に最適化された音声認識モデルで、wav2vec2アーキテクチャに基づき、Common Voiceデータセットでファインチューニングされています

タミル語最適化

タミル語音声認識タスクに特化してファインチューニングされています

XLSRアーキテクチャベース

クロスリンガル音声表現学習(XLSR)アーキテクチャを使用し、強力な音声特徴抽出能力を備えています

Common Voiceデータセットでトレーニング

公開されているCommon Voiceタミル語データセットでトレーニングされています

タミル語音声認識

音声からテキストへの変換

音声コンテンツの文字起こし

音声文字起こし

タミル語音声文字起こし

タミル語音声をテキストに変換します

単語誤り率(WER) 0.8512

音声アシスタント

タミル語音声コマンド認識

タミル語音声アシスタントの構築に使用できます

このモデルは、facebook/wav2vec2-large-xlsr-53 を common_voice データセットでファインチューニングしたものです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法については、以下のセクションを参照してください。

トレーニング中に使用されたハイパーパラメータは以下の通りです。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
12.0478	1.05	100	3.3867	1.0
3.2522	2.11	200	3.2770	1.0
3.1689	3.16	300	3.1135	1.0039
2.9278	4.21	400	2.0485	1.3109
1.3592	5.26	500	0.8044	1.0988
0.7472	6.32	600	0.6571	0.9474
0.5842	7.37	700	0.6079	0.9477
0.4831	8.42	800	0.6083	0.9491
0.4259	9.47	900	0.5916	0.8973
0.3817	10.53	1000	0.6070	0.9147
0.338	11.58	1100	0.5873	0.8617
0.3123	12.63	1200	0.5983	0.8844
0.287	13.68	1300	0.6146	0.8988
0.2706	14.74	1400	0.6068	0.8754
0.2505	15.79	1500	0.5996	0.8638
0.2412	16.84	1600	0.6106	0.8481
0.2176	17.89	1700	0.6152	0.8520
0.2255	18.95	1800	0.6150	0.8540
0.216	20.0	1900	0.6145	0.8512