wav2vec2 - xls - r - 300m - cv8 - トルコ語オープンソースモデル - トルコ語の自動音声認識を高精度で実現

ホーム

Wav2vec2 Xls R 300m Cv8 Turkish

mpoyrazによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングしたトルコ語自動音声認識モデル、Common Voice 8.0 TRデータセットでトレーニング

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #トルコ語音声認識 #低CER文字起こし #Common Voice最適化

ダウンロード数 382

リリース時間 : 3/2/2022

モデル概要

このモデルはトルコ語に最適化された自動音声認識(ASR)システムで、wav2vec2-xls-r-300mアーキテクチャを基にファインチューニングされ、トルコ語音声をテキストに変換可能

モデル特徴

高性能トルコ語認識

Common Voice 8テストセットで10.61%のWERと2.67%のCERを達成

XLS-Rアーキテクチャ採用

facebookのwav2vec2-xls-r-300mをベースモデルとして使用し、強力な音声特徴抽出能力を有する

カスタム言語モデル対応

トルコ語ウィキペディアでトレーニングしたN-gram言語モデルを基に、認識精度を向上

モデル能力

トルコ語音声からテキストへの変換

長音声処理(チャンク処理対応)

高精度音声認識

使用事例

音声文字起こし

トルコ語音声テキスト化

トルコ語音声コンテンツを編集可能なテキスト形式に変換

標準テストセットで90%以上の精度を達成

音声アシスタント

トルコ語音声コマンド認識

トルコ語音声アシスタントの中核認識機能を提供

🚀 wav2vec2-xls-r-300m-cv8-turkish

この音声認識モデルは、トルコ語に対してfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。

🚀 クイックスタート

このモデルは、トルコ語の自動音声認識タスクに使用できます。以下のセクションでは、モデルの詳細、トレーニングと評価に使用されたデータ、トレーニング手順、言語モデル、評価コマンド、および評価結果について説明します。

✨ 主な機能

トルコ語に対してファインチューニングされた自動音声認識モデルです。
特定のデータセットを使用してトレーニングされ、高精度な音声認識を提供します。

📦 インストール

評価を実行する前に、unicode_trパッケージをインストールする必要があります。これはトルコ語のテキスト処理に使用されます。

💻 使用例

基本的な使用法

mozilla-foundation/common_voice_8_0のtestスプリットで評価するには、次のコマンドを実行します。

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv8-turkish --dataset mozilla-foundation/common_voice_8_0 --config tr --split test

高度な使用法

speech-recognition-community-v2/dev_dataで評価するには、次のコマンドを実行します。

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv8-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📚 ドキュメント

モデルの説明

この自動音声認識モデルは、トルコ語に対してfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。

トレーニングと評価データ

ファインチューニングには、以下のデータセットが使用されました。

Common Voice 8.0 TR testスプリットを除くすべてのvalidatedスプリットがトレーニングに使用されました。

トレーニング手順

上記のデータセットをサポートするために、カスタムの前処理とロード手順が実行され、その目的のためにwav2vec2-turkishリポジトリが使用されました。

トレーニングハイパーパラメータ

ファインチューニングには、以下のハイパーパラメータが使用されました。

learning_rate 2.5e-4
num_train_epochs 20
warmup_steps 500
freeze_feature_extractor
mask_time_prob 0.1
mask_feature_prob 0.1
feat_proj_dropout 0.05
attention_dropout 0.05
final_dropout 0.1
activation_dropout 0.05
per_device_train_batch_size 8
per_device_eval_batch_size 8
gradient_accumulation_steps 8

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.1
Datasets 1.17.0
Tokenizers 0.10.3

言語モデル

N-gram言語モデルは、KenLMを使用してトルコ語のウィキペディア記事でトレーニングされ、ngram-lm-wikiリポジトリがarpa LMを生成してバイナリ形式に変換するために使用されました。

評価結果

データセット	WER	CER
Common Voice 8 TR test split	10.61	2.67
Speech Recognition Community dev data	36.46	12.38

🔧 技術詳細

このモデルは、特定のデータセットを使用してトレーニングされ、カスタムの前処理とロード手順が適用されました。トレーニングに使用されたハイパーパラメータは、高精度な音声認識を達成するために最適化されています。また、N-gram言語モデルがトルコ語のウィキペディア記事でトレーニングされ、認識精度を向上させています。