wav2vec2-commonvoice-tamilオープンソースモデル - 無料でタミル語の高精度な音声認識を実現

Wav2vec2 Commonvoice Tamil

nikhil6041によって開発

Harveenchadha/vakyansh-wav2vec2-tamil-tam-250をベースにcommon_voiceデータセットで微調整したタミル語音声認識モデル

ダウンロード数 40

リリース時間 : 3/31/2022

モデル概要

これはタミル語音声認識用のwav2vec2モデルで、common_voiceデータセットで微調整されており、タミル語音声をテキストに変換できます

タミル語音声認識

タミル語に特化して最適化された音声認識能力

wav2vec2アーキテクチャベース

Facebookのwav2vec2アーキテクチャを使用し、優れた音声特徴抽出能力を備えています

Common Voiceデータセットでの微調整

Common Voiceタミル語データセットで微調整を行い、認識精度を向上させました

タミル語音声からテキストへの変換

自動音声認識

音声文字起こし

タミル語音声文字起こし

タミル語音声コンテンツをテキストに変換

評価セットでの単語誤り率は1.0

音声アシスタント

タミル語音声アシスタント

タミル語をサポートする音声アシスタントの構築に使用

このモデルは、Harveenchadha/vakyansh-wav2vec2-tamil-tam-250 を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このセクションでは、モデルの概要と評価結果について説明します。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.384	1.69	200	3.3400	1.0
3.3085	3.39	400	3.3609	1.0
3.3008	5.08	600	3.3331	1.0
3.2852	6.78	800	3.3492	1.0
3.2908	8.47	1000	3.3318	1.0
3.2865	10.17	1200	3.3501	1.0
3.2826	11.86	1400	3.3403	1.0
3.2875	13.56	1600	3.3335	1.0
3.2899	15.25	1800	3.3311	1.0
3.2755	16.95	2000	3.3617	1.0
3.2877	18.64	2200	3.3317	1.0
3.2854	20.34	2400	3.3560	1.0
3.2878	22.03	2600	3.3332	1.0
3.2766	23.73	2800	3.3317	1.0
3.2943	25.42	3000	3.3737	1.0
3.2845	27.12	3200	3.3347	1.0
3.2765	28.81	3400	3.3415	1.0