xtreme_s_xlsr_300m_minds14オープンソース多言語音声認識モデル

ホーム

Xtreme S Xlsr 300m Minds14

anton-lによって開発

facebook/wav2vec2-xls-r-300mをGOOGLE/XTREME_S - MINDS14.ALLデータセットでファインチューニングした多言語音声認識モデル

音声分類

Transformers

その他オープンソースライセンス:Apache-2.0 #多言語音声認識 #高精度分類 #XLS-Rアーキテクチャ

ダウンロード数 467

リリース時間 : 3/17/2022

モデル概要

このモデルは多言語音声認識タスク向けに最適化されており、14言語の認識をサポートし、評価データセットで優れた性能を発揮します。

モデル特徴

多言語サポート

ヨーロッパとアジアの主要言語を含む14言語の音声認識をサポート

高精度

評価データセットで全体精度90.33%、ドイツ語など一部言語では94.77%の高精度を達成

大規模事前学習モデルベース

facebook/wav2vec2-xls-r-300mモデルをファインチューニングしており、強力な音声特徴抽出能力を継承

モデル能力

音声認識

多言語処理

音声テキスト変換

使用事例

音声アシスタント

多言語音声アシスタント

複数言語をサポートする音声アシスタントシステムの構築

14言語の音声入力を正確に認識可能

音声文字起こし

会議議事録の文字起こし

多言語会議録音を自動でテキスト化

複数言語の正確な文字起こしをサポート

🚀 xtreme_s_xlsr_300m_minds14

このモデルは、GOOGLE/XTREME_S - MINDS14.ALLデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

正解率: 0.9033
正解率 Cs-cz: 0.9164
正解率 De-de: 0.9477
正解率 En-au: 0.9235
正解率 En-gb: 0.9324
正解率 En-us: 0.9326
正解率 Es-es: 0.9177
正解率 Fr-fr: 0.9444
正解率 It-it: 0.9167
正解率 Ko-kr: 0.8649
正解率 Nl-nl: 0.9450
正解率 Pl-pl: 0.9146
正解率 Pt-pt: 0.8940
正解率 Ru-ru: 0.8667
正解率 Zh-cn: 0.7291
F1値: 0.9015
F1値 Cs-cz: 0.9154
F1値 De-de: 0.9467
F1値 En-au: 0.9199
F1値 En-gb: 0.9334
F1値 En-us: 0.9308
F1値 Es-es: 0.9158
F1値 Fr-fr: 0.9436
F1値 It-it: 0.9135
F1値 Ko-kr: 0.8642
F1値 Nl-nl: 0.9440
F1値 Pl-pl: 0.9159
F1値 Pt-pt: 0.8883
F1値 Ru-ru: 0.8646
F1値 Zh-cn: 0.7249
損失: 0.4119
損失 Cs-cz: 0.3790
損失 De-de: 0.2649
損失 En-au: 0.3459
損失 En-gb: 0.2853
損失 En-us: 0.2203
損失 Es-es: 0.2731
損失 Fr-fr: 0.1909
損失 It-it: 0.3520
損失 Ko-kr: 0.5431
損失 Nl-nl: 0.2515
損失 Pl-pl: 0.4113
損失 Pt-pt: 0.4798
損失 Ru-ru: 0.6470
損失 Zh-cn: 1.1216
予測サンプル数: 4086

🚀 クイックスタート

このモデルは、音声関連のタスクに使用できます。具体的な使い方は、モデルの詳細なドキュメントやサンプルコードを参照してください。

📚 ドキュメント

モデルの説明

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

学習と評価データ

詳細情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0003
学習バッチサイズ: 32
評価バッチサイズ: 8
シード値: 42
分散型学習タイプ: マルチGPU
デバイス数: 2
総学習バッチサイズ: 64
総評価バッチサイズ: 16
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップステップ: 1500
エポック数: 50.0
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	F1値	正解率
2.6739	5.41	200	2.5687	0.0430	0.1190
1.4953	10.81	400	1.6052	0.5550	0.5692
0.6177	16.22	600	0.7927	0.8052	0.8011
0.3609	21.62	800	0.5679	0.8609	0.8609
0.4972	27.03	1000	0.5944	0.8509	0.8523
0.1799	32.43	1200	0.6194	0.8623	0.8621
0.1308	37.84	1400	0.5956	0.8569	0.8548
0.2298	43.24	1600	0.5201	0.8732	0.8743
0.0052	48.65	1800	0.3826	0.9106	0.9103