xls - r - 300m - svオープンソース自動音声認識モデル、スウェーデン語の音声内容を精度よく認識

ホーム

Xls R 300m Sv

hf-testによって開発

facebook/wav2vec2-xls-r-300mをベースに、スウェーデン語データセットで微調整した自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #スウェーデン語音声認識 #多シーン適合 #低単語誤り率

ダウンロード数 28

リリース時間 : 3/2/2022

モデル概要

これはスウェーデン語に最適化された自動音声認識（ASR）モデルで、XLS-R-300mアーキテクチャに基づき、Common Voice 7スウェーデン語データセットで微調整され、スウェーデン語の音声をテキストに変換できます。

モデル特徴

スウェーデン語最適化

スウェーデン語の音声認識に特化して微調整され、スウェーデン語データセットで優れた性能を発揮します。

複数データセット検証

Common Voice 7とロバスト音声コンテストデータセットの両方で評価されました。

言語モデル統合のサポート

言語モデルを組み合わせることで、認識精度をさらに向上させることができます。

モデル能力

スウェーデン語音声認識

長時間オーディオ処理（ブロック処理のサポート）

高精度のテキスト転写

使用事例

音声転写

スウェーデン語音声をテキストに変換

スウェーデン語の音声内容をテキストに変換します。

テストWER 16.98（CV7）、27.01（ロバストコンテスト）

音声アシスタント

スウェーデン語音声命令認識

スウェーデン語の音声アシスタントまたは制御システムに使用されます。

🚀 XLS-R-300m-SV

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - SV-SEデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3171
単語誤り率 (Wer): 0.2468

✨ 主な機能

自動音声認識タスクに対応
特定のデータセットでファインチューニングされ、高精度な認識結果を提供

📦 インストール

このドキュメントには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "hf-test/xls-r-300m-sv"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "sv-SE", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text
# => "jag lämnade grovjobbet åt honom"

高度な使用法

このドキュメントに高度な使用法のコード例が記載されていないため、このサブセクションをスキップします。

📚 ドキュメント

モデルの詳細

このモデルは、facebook/wav2vec2-xls-r-300mをMOZILLA-FOUNDATION/COMMON_VOICE_7_0 - SV-SEデータセットでファインチューニングしたものです。評価セットでは以下の結果を達成しています。

損失: 0.3171
単語誤り率 (Wer): 0.2468

想定される用途と制限

このドキュメントに想定される用途と制限に関する詳細情報が記載されていないため、このサブセクションをスキップします。

学習と評価データ

このドキュメントに学習と評価データに関する詳細情報が記載されていないため、このサブセクションをスキップします。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 7.5e-05
学習バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 4
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 2000
エポック数 (num_epochs): 50.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
3.3349	1.45	500	3.2858	1.0
2.9298	2.91	1000	2.9225	1.0000
2.0839	4.36	1500	1.1546	0.8295
1.7093	5.81	2000	0.6827	0.5701
1.5855	7.27	2500	0.5597	0.4947
1.4831	8.72	3000	0.4923	0.4527
1.4416	10.17	3500	0.4670	0.4270
1.3848	11.63	4000	0.4341	0.3980
1.3749	13.08	4500	0.4203	0.4011
1.3311	14.53	5000	0.4310	0.3961
1.317	15.99	5500	0.3898	0.4322
1.2799	17.44	6000	0.3806	0.3572
1.2771	18.89	6500	0.3828	0.3427
1.2451	20.35	7000	0.3702	0.3359
1.2182	21.8	7500	0.3685	0.3270
1.2152	23.26	8000	0.3650	0.3308
1.1837	24.71	8500	0.3568	0.3187
1.1721	26.16	9000	0.3659	0.3249
1.1764	27.61	9500	0.3547	0.3145
1.1606	29.07	10000	0.3514	0.3104
1.1431	30.52	10500	0.3469	0.3062
1.1047	31.97	11000	0.3313	0.2979
1.1315	33.43	11500	0.3298	0.2992
1.1022	34.88	12000	0.3296	0.2973
1.0935	36.34	12500	0.3278	0.2926
1.0676	37.79	13000	0.3208	0.2868
1.0571	39.24	13500	0.3322	0.2885
1.0536	40.7	14000	0.3245	0.2831
1.0525	42.15	14500	0.3285	0.2826
1.0464	43.6	15000	0.3223	0.2796
1.0415	45.06	15500	0.3166	0.2774
1.0356	46.51	16000	0.3177	0.2746
1.04	47.96	16500	0.3150	0.2735
1.0209	49.42	17000	0.3175	0.2731

フレームワークバージョン

Transformers: 4.16.0.dev0
Pytorch: 1.10.0+cu102
Datasets: 1.17.1.dev0
Tokenizers: 0.10.3

評価コマンド

mozilla-foundation/common_voice_7_0 の test スプリットで評価するには

python eval.py --model_id hf-test/xls-r-300m-sv --dataset mozilla-foundation/common_voice_7_0 --config sv-SE --split test

speech-recognition-community-v2/dev_data で評価するには

python eval.py --model_id hf-test/xls-r-300m-sv --dataset speech-recognition-community-v2/dev_data --config sv --split validation --chunk_length_s 5.0 --stride_length_s 1.0

言語モデルを使用した推論

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "hf-test/xls-r-300m-sv"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "sv-SE", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text
# => "jag lämnade grovjobbet åt honom"