wav2vec2-xls-r-300m-bengaliオープンソースモデル - ベンガル語の自動音声認識機能を実現

ホーム

Wav2vec2 Xls R 300m Bengali

arijitxによって開発

facebook/wav2vec2-xls-r-300mモデルをベースに微調整されたベンガル語自動音声認識モデルで、OpenSLR_SLR53データセットで訓練されました。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ベンガル語音声認識 #低文字誤り率（CER）#5-gram言語モデル強化

ダウンロード数 533

リリース時間 : 3/2/2022

モデル概要

これはベンガル語に最適化された自動音声認識（ASR）モデルで、Facebookのwav2vec2-xls-r-300mアーキテクチャをベースに微調整され、専門的にベンガル語の音声をテキストに変換するタスクを処理します。

モデル特徴

高精度ベンガル語認識

OpenSLR_SLR53テストセットで0.153の単語誤り率（WER）と0.034の文字誤り率（CER）を達成しました。

言語モデル統合をサポート

5-gram言語モデルを組み合わせることで、認識精度をさらに向上させることができます。

専門データセットでの訓練

OpenSLR_SLR53ベンガル語専門データセットを使用して微調整されました。

最適化された訓練パラメータ

音声時間マスク（0.75の確率）と特徴マスク（0.25の確率）などのデータ拡張技術を採用しています。

モデル能力

ベンガル語音声認識

音声をテキストに変換

言語モデル統合をサポート

使用事例

音声文字起こし

ベンガル語会議記録

ベンガル語の会議録音を自動的に文字起こしします。

精度は84.7％（WER 0.153）に達します。

音声アシスタント

ベンガル語音声アシスタントに音声認識機能を提供します。

教育

言語学習アプリ

学習者がベンガル語の発音と聴解を練習するのを支援します。

🚀 arijitx/wav2vec2-xls-r-300m-bengali

このモデルは、facebook/wav2vec2-xls-r-300m を OPENSLR_SLR53 - ベンガル語データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

✨ 主な機能

自動音声認識タスクに対応
ベンガル語の音声認識に特化したモデル

📦 インストール

原文書にインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル情報

属性	詳細
モデルタイプ	自動音声認識モデル
学習データ	openslr、SLR53、AI4Bharat/IndicCorp
評価指標	WER、CER

評価結果

このモデルは、評価セットで以下の結果を達成しています。

言語モデルなしの場合

WER: 0.21726385291857586
CER: 0.04725010353701041

AI4Bharat IndicCorp データセットからランダムに選択された3000万文で学習された5-gram言語モデルを使用した場合

WER: 0.15322879016421437
CER: 0.03413696666806267

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

dataset_name="openslr"
model_name_or_path="facebook/wav2vec2-xls-r-300m"
dataset_config_name="SLR53"
output_dir="./wav2vec2-xls-r-300m-bengali"
overwrite_output_dir
num_train_epochs="50"
per_device_train_batch_size="32"
per_device_eval_batch_size="32"
gradient_accumulation_steps="1"
learning_rate="7.5e-5"
warmup_steps="2000"
length_column_name="input_length"
evaluation_strategy="steps"
text_column_name="sentence"
chars_to_ignore , ? . ! - ; : " “ % ‘ ” � — ’ … –
save_steps="2000"
eval_steps="3000"
logging_steps="100"
layerdrop="0.0"
activation_dropout="0.1"
save_total_limit="3"
freeze_feature_encoder
feat_proj_dropout="0.0"
mask_time_prob="0.75"
mask_time_length="10"
mask_feature_prob="0.25"
mask_feature_length="64"
preprocessing_num_workers 32

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

注意事項

学習と評価のコードは、https://github.com/huggingface/transformers/tree/master/examples/research_projects/robust-speech-event から変更されています。
ベンガル語の音声データは、Common VoiceやLibrispeechの多言語データセットから入手できなかったため、OpenSLR53が使用されています。
学習データのフィルタリングには、最小音声長0.5秒が使用されており、およそ10 - 20サンプルが除外されています。
OpenSLR53のトランスクリプトは、言語モデルの学習と評価には使用されていません。