wav2vec2-bn-300mオープンソースモデル - 無料でベンガル語の自動音声認識を実現

ホーム

Wav2vec2 Bn 300m

Tahsin-Mayeeshaによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングしたベンガル語自動音声認識モデル、OPENSLR_SLR53データセットでトレーニング

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ベンガル語音声認識 #低CER #5-gram言語モデル最適化

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

これはベンガル語に最適化された自動音声認識(ASR)モデルで、wav2vec2-xls-r-300mアーキテクチャを基に微調整され、OpenSLRデータセットで優れた性能を発揮します

モデル特徴

高精度ベンガル語認識

OpenSLRテストセットで17.78%の単語誤り率(WER)と4.39%の文字誤り率(CER)を達成

言語モデル統合サポート

5-gram言語モデルと組み合わせることで認識精度をさらに向上可能

大規模トレーニングデータ

OPENSLR_SLR53データセットの218,703サンプルを使用してトレーニング

モデル能力

ベンガル語音声認識

音声からテキストへの変換

言語モデル拡張サポート

使用事例

音声文字起こし

ベンガル語音声テキスト化

ベンガル語音声コンテンツをテキストに変換

テストセットで0.17776 WER(言語モデル使用時)を達成

音声アシスタント

ベンガル語音声インタラクション

ベンガル語音声アシスタントに音声認識機能を提供

🚀 Tahsin-Mayeesha/wav2vec2-bn-300m

このモデルは、自動音声認識タスクに特化したモデルです。facebook/wav2vec2-xls-r-300m をOPENSLR_SLR53 - ベンガル語データセットでファインチューニングしたもので、評価セットで良好な結果を達成しています。

✨ 主な機能

自動音声認識タスクに対応
言語モデルを使用した場合と使用しない場合の両方で評価結果を提供

📚 ドキュメント

モデル情報

属性	詳情
モデルタイプ	自動音声認識モデル
訓練データ	openslr、SLR53、Harveenchadha/indic-text
評価指標	WER、CER

評価結果

このモデルは、評価セットで以下の結果を達成しています。

言語モデルなしの場合:

WER: 0.3110
CER: 0.072

indic-text データセットで訓練された5-gram言語モデルを使用した場合:

WER: 0.17776
CER: 0.04394

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 7.5e-05
train_batch_size: 16
eval_batch_size: 16
gradient_accumulation_steps: 4
optimizer: Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2000
mixed_precision_training: Native AMP

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

注意事項

合計218703サンプルのうち10%が評価に使用されました。評価セットには21871の例が含まれています。訓練は30kステップ後に停止されました。出力予測はファイルセクションで利用可能です。
訓練データのフィルタリングには、最小音声持続時間0.1秒が使用されており、およそ10 - 20サンプルが除外されています。
訓練と評価のスクリプトは、chmanoj/xls-r-300m-te と huggingface/transformers から変更されています。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📖 引用

@misc {tahsin_mayeesha_2023,
	author       = { {Tahsin Mayeesha} },
	title        = { wav2vec2-bn-300m (Revision e10defc) },
	year         = 2023,
	url          = { https://huggingface.co/Tahsin-Mayeesha/wav2vec2-bn-300m },
	doi          = { 10.57967/hf/0939 },
	publisher    = { Hugging Face }
}