xls-r-kyrgiz-cv8オープンソース音声認識モデル - 無料でデプロイし、正確にキルギス語の音声を認識する

Home

Xls R Kyrgiz Cv8

Developed by lucio

このモデルはfacebook/wav2vec2-xls-r-300mをCommon Voice 8.0キルギス語データセットでファインチューニングした自動音声認識モデルです

音声認識

Transformers

OtherOpen Source License:Apache-2.0 #キルギス語音声認識 #低リソース言語処理 #WER最適化

Downloads 16

Release Time : 3/2/2022

Model Overview

キルギス語に最適化された音声認識モデルで、音声からテキストへの変換タスクに適しています

Model Features

低単語誤り率

テストセットで19.01%のWER（言語モデル使用時）を達成

多様なシナリオ対応

低品質音声シナリオに最適化され、様々な実用アプリケーションに適用可能

段階的学習

段階的な学習率スケジューリング戦略を採用し、トレーニング効果を最適化

Model Capabilities

キルギス語音声認識

音声からテキストへの変換

音声コンテンツインデックス作成

Use Cases

メディア処理

動画字幕生成

キルギス語動画コンテンツの字幕草案を自動生成

WER 19.01%（言語モデル使用時）

放送コンテンツインデックス作成

録音されたキルギス語放送番組のコンテンツインデックス作成

CER 5.38%（言語モデル使用時）

🚀 XLS - R - 300M キルギス語 CV8

このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - KY データセットで [facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) をファインチューニングしたバージョンです。検証セットでは以下の結果を達成しています。

損失: 0.5497
単語誤り率 (Wer): 0.2945
文字誤り率 (Cer): 0.0791

📚 ドキュメント

モデルの説明

モデルアーキテクチャの説明については、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) を参照してください。

モデルの語彙は、句読点を取り除いたキリル文字アルファベットで構成されています。

kenlm言語モデルは、訓練コーパスと無効化コーパスの分割テキストを使用して構築されています。

想定される用途と制限

このモデルは、以下のような低忠実度のユースケースに役立つと考えられます。

ドラフト動画のキャプション
録画された放送のインデックス付け

このモデルは、アクセシビリティ目的でのライブキャプションの代替として使用するには十分な信頼性がありません。また、Common Voiceデータセットの貢献者や他の話者のプライバシーを侵害するような方法で使用してはなりません。

訓練と評価データ

訓練データとして、Common Voiceの公式分割の train、dev、other の組み合わせが使用されました。検証データとして公式 test 分割の半分が使用され、最終評価には完全な test セットが使用されました。

訓練手順

XLS - Rモデルの特徴抽出層は凍結され、キルギス語CV8のサンプル文で最終的なCTC/LM層がチューニングされます。学習率は、初期のウォームアップフェーズを500ステップ、最大0.0001、そして残りの8100ステップ（300エポック）で0に向かって冷却するランプ方式が使用されます。

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

パラメータ	値
学習率 (learning_rate)	0.0001
訓練バッチサイズ (train_batch_size)	32
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
勾配累積ステップ (gradient_accumulation_steps)	4
総訓練バッチサイズ (total_train_batch_size)	128
オプティマイザ (optimizer)	Adam (betas=(0.9, 0.999), epsilon=1e - 08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	300.0
混合精度訓練 (mixed_precision_training)	ネイティブAMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
3.1079	18.51	500	2.6795	0.9996	0.9825
0.8506	37.04	1000	0.4323	0.3718	0.0961
0.6821	55.55	1500	0.4105	0.3311	0.0878
0.6091	74.07	2000	0.4281	0.3168	0.0851
0.5429	92.58	2500	0.4525	0.3147	0.0842
0.5063	111.11	3000	0.4619	0.3144	0.0839
0.4661	129.62	3500	0.4660	0.3039	0.0818
0.4353	148.15	4000	0.4695	0.3083	0.0820
0.4048	166.65	4500	0.4909	0.3085	0.0824
0.3852	185.18	5000	0.5074	0.3048	0.0812
0.3567	203.69	5500	0.5111	0.3012	0.0810
0.3451	222.22	6000	0.5225	0.2982	0.0804
0.325	240.73	6500	0.5270	0.2955	0.0796
0.3089	259.25	7000	0.5381	0.2929	0.0793
0.2941	277.76	7500	0.5565	0.2923	0.0794
0.2945	296.29	8000	0.5495	0.2951	0.0789

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.3
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

🔍 モデル情報

プロパティ	詳細
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
訓練データ	mozilla - foundation/common_voice_8_0
ベースモデル	facebook/wav2vec2 - xls - r - 300m

モデル指標

タスク	データセット	評価指標	値
自動音声認識 (Automatic Speech Recognition)	Common Voice 8 (mozilla - foundation/common_voice_8_0, ky)	単語誤り率 (Wer) (with LM)	19.01
自動音声認識 (Automatic Speech Recognition)	Common Voice 8 (mozilla - foundation/common_voice_8_0, ky)	文字誤り率 (Cer) (with LM)	5.38
自動音声認識 (Automatic Speech Recognition)	Common Voice 8 (mozilla - foundation/common_voice_8_0, ky)	単語誤り率 (Wer) (no LM)	31.28
自動音声認識 (Automatic Speech Recognition)	Common Voice 8 (mozilla - foundation/common_voice_8_0, ky)	文字誤り率 (Cer) (no LM)	7.66