wav2vec2-large-xls-r-1b-Swedishオープンソースモデル - 無料でデプロイしてスウェーデン語の音声からテキストへの変換を実現

ホーム

Wav2vec2 Large Xls R 1b Swedish

kingabzproによって開発

このモデルは、facebook/wav2vec2-xls-r-1bをCommon Voiceのスウェーデン語データセットで微調整した自動音声認識モデルで、スウェーデン語の音声をテキストに変換するタスクをサポートしています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #スウェーデン語音声認識 #低い単語誤り率 #多場面でのロバスト性

ダウンロード数 844

リリース時間 : 3/2/2022

モデル概要

スウェーデン語に最適化された自動音声認識モデルで、wav2vec2-xls-r-1bアーキテクチャに基づき、Common Voice 8.0データセットで微調整され、高精度のスウェーデン語音声認識をサポートします。

モデル特徴

高性能なスウェーデン語認識

Common Voiceのスウェーデン語テストセットで、14.04%の単語誤り率(WER)と4.86%の文字誤り率(CER)を達成しました。

大規模モデルに基づく微調整

10億パラメータのwav2vec2-xls-r-1bモデルを微調整しており、強力な音声特徴抽出能力を備えています。

言語モデルの統合をサポート

言語モデルを組み合わせることで、認識精度をさらに向上させることができ、言語モデルを使用しない場合と比べて、WERを約4%低下させます。

モデル能力

スウェーデン語音声認識

音声をテキストに変換

長い音声データの処理(ブロック処理をサポート)

使用事例

音声文字起こし

スウェーデン語音声内容の文字起こし

スウェーデン語の音声内容をテキスト形式に変換します。

Common Voiceテストセットで14.04%のWERを達成しました。

音声アシスタント

スウェーデン語音声指令の認識

スウェーデン語の音声アシスタントシステムでの指令認識に使用されます。

ロバストな音声イベントデータセットで29.69%のWERを達成しました。

🚀 wav2vec2-large-xls-r-1b-スウェーデン語

このモデルは、facebook/wav2vec2-xls-r-1b をCommon Voiceデータセットで微調整したバージョンです。自動音声認識タスクで優れた性能を発揮し、音声を正確にテキストに変換することができ、スウェーデン語の音声処理に強力なサポートを提供します。

✨ 主な機能

多領域対応：自動音声認識やロバストな音声イベント処理など、複数の領域に適用可能です。
高精度性能：Common Voiceデータセットで微調整され、スウェーデン語の音声認識タスクで良好な評価結果を得ています。

💻 使用例

基本的な使用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xls-r-1b-Swedish"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "sv-SE", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text

📚 ドキュメント

評価指標

このモデルは評価セットで以下の結果を得ています。 言語モデルなし（Without LM）

損失（Loss）: 0.3370
単語誤り率（Wer）: 18.44
文字誤り率（Cer）: 5.75

言語モデルあり（With LM）

損失（Loss）: 0.3370
単語誤り率（Wer）: 14.04
文字誤り率（Cer）: 4.86

評価コマンド

mozilla-foundation/common_voice_8_0 データセットの test 分割で評価する場合：

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset mozilla-foundation/common_voice_8_0 --config sv-SE --split test

speech-recognition-community-v2/dev_data データセットで評価する場合：

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset speech-recognition-community-v2/dev_data --config sv --split validation --chunk_length_s 5.0 --stride_length_s 1.0

学習ハイパーパラメータ

学習過程では以下のハイパーパラメータが使用されています。

属性	詳細
学習率（learning_rate）	7.5e-05
学習バッチサイズ（train_batch_size）	64
評価バッチサイズ（eval_batch_size）	8
乱数シード（seed）	42
勾配累積ステップ数（gradient_accumulation_steps）	4
総学習バッチサイズ（total_train_batch_size）	256
オプティマイザ（optimizer）	Adam（betas=(0.9,0.999)，epsilon=1e-08）
学習率スケジューラのタイプ（lr_scheduler_type）	線形（linear）
学習率スケジューラのウォームアップステップ数（lr_scheduler_warmup_steps）	1000
学習エポック数（num_epochs）	50
混合精度学習（mixed_precision_training）	ネイティブ自動混合精度（Native AMP）

学習結果

学習損失（Training Loss）	エポック数（Epoch）	ステップ数（Step）	検証損失（Validation Loss）	単語誤り率（Wer）	文字誤り率（Cer）
3.1562	11.11	500	0.4830	0.3729	0.1169
0.5655	22.22	1000	0.3553	0.2381	0.0743
0.3376	33.33	1500	0.3359	0.2179	0.0696
0.2419	44.44	2000	0.3232	0.1844	0.0575

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

🔧 技術詳細

このモデルは facebook/wav2vec2-xls-r-1b ベースモデルを mozilla-foundation/common_voice_8_0 データセットで微調整したものです。特定の学習ハイパーパラメータとオプティマイザを使用することで、スウェーデン語の音声認識タスクで良好な結果を得ています。評価指標には単語誤り率（Wer）と文字誤り率（Cer）が含まれ、モデルの性能を測定するために使用されます。