wav2vec2-xls-r-300m-cv6-turkishオープンソースモデル - トルコ語の自動音声認識を精度良く実現

ホーム

Wav2vec2 Xls R 300m Cv6 Turkish

mpoyrazによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングしたトルコ語自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #トルコ語音声認識 #低CER文字起こし #多様なデータソースでのトレーニング

ダウンロード数 38

リリース時間 : 3/2/2022

モデル概要

このモデルはトルコ語に最適化された自動音声認識(ASR)システムで、Common Voice 6.1とMediaSpeechデータセットでファインチューニングされており、トルコ語音声からテキストへの変換タスクをサポートします。

モデル特徴

高性能トルコ語認識

Common Voice 6.1テストセットで8.83%のWERと2.37%のCERを達成

複数データセットでのトレーニング

Common VoiceとMediaSpeechデータセットを組み合わせてトレーニングし、モデルの頑健性を向上

言語モデル強化

トルコ語ウィキペディアでトレーニングしたN-gram言語モデルを使用して認識精度を向上

モデル能力

トルコ語音声認識

長い音声処理(チャンク処理対応)

使用事例

音声文字起こし

トルコ語音声転写

トルコ語音声コンテンツをテキストに変換

標準テストセットで8.83%の単語誤り率を達成

音声アシスタント

トルコ語音声コマンド認識

トルコ語音声アシスタントのフロントエンド音声認識に使用

🚀 wav2vec2-xls-r-300m-cv6-turkish

この自動音声認識（ASR）モデルは、トルコ語に対して微調整されたfacebook/wav2vec2-xls-r-300mのバージョンです。トルコ語の音声認識タスクに特化しています。

🚀 クイックスタート

このモデルを使用するには、まず必要なライブラリをインストールし、評価コマンドを実行することで評価を行うことができます。

✨ 主な機能

トルコ語に特化した自動音声認識モデルです。
複数のデータセットを用いて微調整されており、精度が高いです。

📦 インストール

評価を行う前に、unicode_trパッケージをインストールしてください。これはトルコ語のテキスト処理に使用されます。

💻 使用例

基本的な使用法

common_voiceのtestスプリットで評価を行うには、以下のコマンドを実行します。

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset common_voice --config tr --split test

高度な使用法

speech-recognition-community-v2/dev_dataで評価を行うには、以下のコマンドを実行します。

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📚 ドキュメント

モデルの説明

このASRモデルは、facebook/wav2vec2-xls-r-300mをトルコ語で微調整したバージョンです。

学習と評価データ

微調整には以下のデータセットが使用されました。

Common Voice 6.1 TR testスプリットを除くすべてのvalidatedスプリットが学習に使用されました。
MediaSpeech

学習手順

上記の両方のデータセットをサポートするために、カスタムの前処理とロード手順が実行され、wav2vec2-turkishリポジトリがその目的で使用されました。

学習ハイパーパラメータ

微調整には以下のハイパーパラメータが使用されました。

learning_rate 2e-4
num_train_epochs 10
warmup_steps 500
freeze_feature_extractor
mask_time_prob 0.1
mask_feature_prob 0.1
feat_proj_dropout 0.05
attention_dropout 0.05
final_dropout 0.1
activation_dropout 0.05
per_device_train_batch_size 8
per_device_eval_batch_size 8
gradient_accumulation_steps 8

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.1
Datasets 1.18.3
Tokenizers 0.10.3

言語モデル

N-gram言語モデルは、KenLMを使用してトルコ語のウィキペディア記事で学習され、ngram-lm-wikiリポジトリがarpa LMを生成してバイナリ形式に変換するために使用されました。

評価コマンド

評価を実行する前に、unicode_trパッケージをインストールしてください。これはトルコ語のテキスト処理に使用されます。

common_voiceのtestスプリットで評価を行うには、以下のコマンドを実行します。

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset common_voice --config tr --split test

speech-recognition-community-v2/dev_dataで評価を行うには、以下のコマンドを実行します。

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0