wav2vec2-large-voxrex-swedishオープンソースのスウェーデン語音声認識モデル

ホーム

Wav2vec2 Large Voxrex Swedish

KBLabによって開発

VoxRex大型モデルを微調整したスウェーデン語自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

音声認識

Transformers

その他#スウェーデン語音声認識 #低単語誤り率（WER）#ラジオ音声適合

ダウンロード数 101.28k

リリース時間 : 3/2/2022

モデル概要

このモデルは、スウェーデン語用に最適化された自動音声認識（ASR）システムで、FacebookのWav2vec 2.0アーキテクチャに基づき、スウェーデン語のラジオ、NST、および汎用音声データセットで微調整されています。

モデル特徴

高性能スウェーデン語認識

NST＋汎用音声テストセットで2.5%のWER、汎用音声テストセットで8.49%のWERを達成します。

言語モデル強化のサポート

4 - gram言語モデルを使用することで、WERを8.49%から7.37%に低下させることができます。

複数データセットによる訓練

スウェーデン語のラジオ、NST、および汎用音声データセットを組み合わせて訓練しています。

モデル能力

スウェーデン語音声認識

16kHzオーディオ処理

言語モデルなしでの直接使用

使用事例

音声から文字への変換

ラジオ内容の文字起こし

スウェーデン語のラジオ内容を自動的に文字に変換します。

ラジオデータセットで優れた性能を発揮します。

音声アシスタント

スウェーデン語の音声アシスタントに音声認識機能を提供します。

🚀 Wav2vec 2.0 large VoxRex Swedish (C)

このモデルは、KBのVoxRex largeモデルを、スウェーデン語のラジオ放送、NST、Common Voiceのデータを用いてファインチューニングしたバージョンです。言語モデルを使用せずに評価すると、以下の結果が得られます。NST + Common Voiceのテストセット（全文の2%）のWERは2.5%です。Common VoiceのテストセットのWERは、直接測定した場合8.49%、4-gramの言語モデルを使用した場合**7.37%**です。

このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

更新 2022-01-10: VoxRex - Cバージョンに更新しました。

更新 2022-05-16: 論文はこちらにあります。

✨ 主な機能

音声関連のタスクに対応
自動音声認識に特化
hf - asr - leaderboardに登録されている

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = load_dataset("common_voice", "sv-SE", split="test[:2%]")
processor = Wav2Vec2Processor.from_pretrained("KBLab/wav2vec2-large-voxrex-swedish")
model = Wav2Vec2ForCTC.from_pretrained("KBLab/wav2vec2-large-voxrex-swedish")
resampler = torchaudio.transforms.Resample(48_000, 16_000)
# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch
test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])

📚 ドキュメント

性能

Comparison

~~*このグラフは、Common Voiceの追加の20kステップのファインチューニングを行わない場合の性能を示しています~~

トレーニング

このモデルは、NST + CommonVoiceで120000回の更新でファインチューニングされています。その後、CommonVoiceのみでさらに20000回の更新が行われました。CommonVoiceでの追加のファインチューニングは、NST+CommonVoiceのテストセットでの性能をやや低下させ、当然ながらCommonVoiceのテストセットでの性能を向上させます。ただし、一般的にはより良い性能を示すようです [出典必要]。

WER during training

🔧 技術詳細

ドキュメントに具体的な技術詳細が50文字以上記載されていないため、このセクションは省略されます。

📄 ライセンス

このモデルは、CC0 - 1.0ライセンスの下で提供されています。

📋 その他情報

属性	詳情
モデルタイプ	Wav2vec 2.0 large VoxRex Swedish (C)
トレーニングデータ	common_voice、NST_Swedish_ASR_Database、P4
評価指標	wer
タグ	audio、automatic - speech - recognition、speech、hf - asr - leaderboard

📖 引用

https://arxiv.org/abs/2205.03026

@misc{malmsten2022hearing,
      title={Hearing voices at the National Library -- a speech corpus and acoustic model for the Swedish language}, 
      author={Martin Malmsten and Chris Haffenden and Love Börjeson},
      year={2022},
      eprint={2205.03026},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}