wav2vec2-xls-r-1b-ca-lmオープンソース音声認識モデル - カタルーニャ語の音声を高精度に認識

ホーム

Wav2vec2 Xls R 1b Ca Lm

PereLluis13によって開発

これはfacebook/wav2vec2-xls-r-300mをベースに微調整されたカタルーニャ語音声認識モデルで、複数のカタルーニャ語データセットで訓練されています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #カタルーニャ語音声認識 #複数データセットの微調整 #低CER性能

ダウンロード数 3,758

リリース時間 : 3/2/2022

モデル概要

このモデルはカタルーニャ語の自動音声認識（ASR）モデルで、Common Voice 8.0、tv3_parla、parlament_parlaのデータセットで微調整されています。

モデル特徴

複数データセットでの訓練

Common Voice 8.0、tv3_parla、parlament_parlaの3つのカタルーニャ語データセットで訓練され、モデルのロバスト性が向上しました。

データ前処理の最適化

カタルーニャ語アルファベットに存在しない文字を削除し、数字を文字形式に変換することで、認識精度が向上しました。

高性能

複数のテストセットで優れた性能を発揮します。例えば、Common Voice 8.0テストセットのWERはわずか6.07%です。

モデル能力

カタルーニャ語音声認識

高精度の文字起こし

多領域の音声処理

使用事例

メディア文字起こし

テレビ番組の字幕生成

カタルーニャ語のテレビ番組に自動で字幕を生成します。

tv3_parlaテストセットでのWERは11.21%です。

会議記録

議会会議の記録

カタルーニャ議会の会議内容を自動で文字起こしします。

parlament_parlaテストセットでのWERは5.14%です。

音声アシスタント

カタルーニャ語の音声入力

カタルーニャ語の音声アシスタントに音声認識機能を提供します。

Common VoiceテストセットでのWERは6.07%です。

🚀 wav2vec2-xls-r-1b-ca-lm

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - CA、tv3_parla、parlament_parla の各データセットを使用して、facebook/wav2vec2-xls-r-300m をファインチューニングしたものです。自動音声認識タスクに特化しており、複数のデータセットでの評価により一定の精度を示しています。

📚 詳細ドキュメント

モデルの説明

元の facebook/wav2vec2-xls-r-1b のモデルカードをご確認ください。このモデルはその元モデルをファインチューニングしたものです。

想定用途と制限

クラウドソーシングデータで学習された他のモデルと同様に、このモデルは学習に使用されたデータやモデルのバイアスや特性を示すことがあります。また、これは音声認識モデルであるため、カタルーニャ語の一部の低リソース方言では性能が低下する可能性があります。

学習と評価データ

学習手順

データは、カタルーニャ語のアルファベットに含まれない文字を削除するように前処理されています。さらに、数字は @ccoreilly が提供するコードを使用して表現されており、このコードは text/ フォルダまたはこちらで見つけることができます。

学習結果

学習プロファイルと学習中の評価結果を確認するには、Tensorboard タブを確認してください。モデルは、学習中に使用された各データセットのテスト分割で評価されました。

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは次のとおりです。

learning_rate: 2e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 64
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2000
num_epochs: 10.0
mixed_precision_training: Native AMP

フレームワークのバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.3
Tokenizers 0.11.0

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

🌟 モデル情報

プロパティ	詳細
モデルタイプ	wav2vec2-xls-r-1b-ca-lm
学習データ	mozilla-foundation/common_voice_8_0、collectivat/tv3_parla、projecte-aina/parlament_parla

🏆 評価結果

モデル名: wav2vec2-xls-r-1b-ca-lm

タスク	データセット	評価指標	値
音声認識	mozilla-foundation/common_voice_8_0 ca	Test WER	6.0722669958130644
音声認識	mozilla-foundation/common_voice_8_0 ca	Test CER	1.9180697705166526
音声認識	projecte-aina/parlament_parla ca	Test WER	5.139820371024042
音声認識	projecte-aina/parlament_parla ca	Test CER	2.0163620128164722
音声認識	collectivat/tv3_parla ca	Test WER	11.207991684952073
音声認識	collectivat/tv3_parla ca	Test CER	7.32119307305963
音声認識	Robust Speech Event - Catalan Dev Data	Test WER	22.870153690468661
音声認識	Robust Speech Event - Catalan Dev Data	Test CER	13.59039190897598
音声認識	Robust Speech Event - Test Data	Test WER	15.41