wav2vec2-xls-r-300m-cv8-turkishオープンソースモデル - トルコ語の自動音声認識を高精度で実現

ホーム

Wav2vec2 Xls R 300m Cv8 Turkish

Baybarsによって開発

これはFacebookのwav2vec2-xls-r-300mモデルをトルコ語Common Voice 8データセットでファインチューニングした自動音声認識(ASR)モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #トルコ語音声認識 #低単語誤り率 #Common Voiceファインチューニング

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはトルコ語の音声認識タスク専用に設計され、Common Voice 8データセットで訓練され、優れた単語誤り率と文字誤り率の性能を達成しました。

モデル特徴

高性能トルコ語認識

Common Voiceテストセットで30.98%の単語誤り率と7.64%の文字誤り率を達成

大規模事前学習モデルベース

Facebookのwav2vec2-xls-r-300mモデルをファインチューニングし、強力な音声特徴抽出能力を有する

N-gram言語モデル統合

トルコ語ウィキペディアで訓練したN-gram言語モデルを使用してデコードし、認識精度を向上

モデル能力

トルコ語音声認識

長音声処理(チャンク処理対応)

高精度文字レベル認識

使用事例

音声からテキストへ

トルコ語音声書き起こし

トルコ語音声コンテンツをテキストに変換

Common VoiceテストセットでWER 30.98%

音声アシスタント

トルコ語音声コマンド認識

トルコ語音声アシスタントシステム向け音声コマンド認識

🚀 音声認識モデル - トルコ語版

このモデルは、自動音声認識を目的としたモデルです。facebook/wav2vec2-xls-r-300m を COMMON_VOICE - TR データセットでファインチューニングしたもので、評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは、facebook/wav2vec2-xls-r-300m を COMMON_VOICE - TR データセットでファインチューニングしたものです。評価セットでは以下の結果を達成しています。

損失: 0.4164
単語誤り率 (Wer): 0.3098
文字誤り率 (Cer): 0.0764

✨ 主な機能

トルコ語の音声を高精度に認識することができます。
学習済みのN-gram言語モデルを使用して、認識精度を向上させています。

📦 インストール

評価を実行する前に、unicode_tr パッケージをインストールしてください。これはトルコ語のテキスト処理に使用されます。

💻 使用例

基本的な使用法

mozilla-foundation/common_voice_7_0 の test スプリットで評価する場合：

python eval.py --model_id Baybars/wav2vec2-xls-r-300m-cv8-turkish --dataset mozilla-foundation/common_voice_8_0 --config tr --split test

高度な使用法

speech-recognition-community-v2/dev_data で評価する場合：

python eval.py --model_id Baybars/wav2vec2-xls-r-300m-cv8-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📚 ドキュメント

モデルの説明

このモデルに関する詳細情報は今後追加予定です。

想定される用途と制限

このモデルに関する詳細情報は今後追加予定です。

学習と評価データ

このモデルに関する詳細情報は今後追加予定です。

言語モデル

N-gram言語モデルは、mpoyraz によって、トルコ語のウィキペディア記事を使用してKenLMで学習されました。ngram-lm-wiki リポジトリを使用して、arpa LMを生成し、バイナリ形式に変換しました。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0005
学習バッチサイズ: 64
評価バッチサイズ: 8
乱数シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 500
エポック数: 100.0
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
0.6356	9.09	500	0.5055	0.5536	0.1381
0.3847	18.18	1000	0.4002	0.4247	0.1065
0.3377	27.27	1500	0.4193	0.4167	0.1078
0.2175	36.36	2000	0.4351	0.3861	0.0974
0.2074	45.45	2500	0.3962	0.3622	0.0916
0.159	54.55	3000	0.4062	0.3526	0.0888
0.1882	63.64	3500	0.3991	0.3445	0.0850
0.1766	72.73	4000	0.4214	0.3396	0.0847
0.116	81.82	4500	0.4182	0.3265	0.0812
0.0718	90.91	5000	0.4259	0.3191	0.0781
0.019	100.0	5500	0.4164	0.3098	0.0764