wav2vec2-xls-r-300m-bp1-es_euオープンソースモデル - バスク語の自動音声認識を効率的に実現

Wav2vec2 Xls R 300m Bp1 Es Eu

gttsehuによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングしたバスク語自動音声認識モデルで、バスク議会データセットで3.67%の単語誤り率を達成

ダウンロード数 49

リリース時間 : 1/5/2024

モデル概要

これはバスク議会シーンに最適化された自動音声認識モデルで、XLS-Rアーキテクチャに基づき、特にバスク語の政治演説や会議記録シーンに適しています。

低単語誤り率

バスク議会データセットでわずか3.67%の単語誤り率で、優れた性能を発揮

マルチGPU最適化

4GPU分散トレーニングを採用し、大規模データ処理を効率的にサポート

ドメイン適応

政治演説シーンに特化して最適化され、議会会議の特殊な語彙や表現方法に対応

バスク語音声からテキストへの変換

会議記録の自動生成

政治演説の認識

政府会議記録

議会会議自動記録

バスク議会会議内容を自動転記し、文字記録を生成

精度96.33%（WER 3.67%）

音声アーカイブのデジタル化

歴史的会議録音の転記

保存されているバスク議会の歴史的音声を検索可能なテキストに変換

このモデルは、自動音声認識を目的としたモデルで、facebook/wav2vec2-xls-r-300m を GTTSEHU/BASQUE_PARLIAMENT_1 - NA データセットでファインチューニングしたものです。評価セットでは、以下の結果を達成しています。

この研究は、スペイン科学技術革新省（OPENSPEECHプロジェクト、PID2019 - 106424RB - I00）によって一部資金提供されています。

このモデルは、自動音声認識タスクに使用できます。以下の評価指標で良好な結果を示しています。

学習中に使用されたハイパーパラメータは以下の通りです。

ハイパーパラメータ	値
learning_rate	0.0001
train_batch_size	4
eval_batch_size	4
seed	42
distributed_type	multi - GPU
num_devices	4
gradient_accumulation_steps	2
total_train_batch_size	32
total_eval_batch_size	16
optimizer	Adam (betas=(0.9,0.999), epsilon=1e - 08)
lr_scheduler_type	linear
lr_scheduler_warmup_steps	1000
num_epochs	6.0
mixed_precision_training	Native AMP