wav2vec2-base-voxpopuli-sv スウェーデン語音声認識モデル - オープンソースで高精度なスウェーデン語音声認識

ホーム

Wav2vec2 Base Voxpopuli Sv Swedish

KBLabによって開発

FacebookのVoxPopuli-svベース版モデルをベースに、NSTとCommon Voiceのデータを使って微調整されたスウェーデン語音声認識モデルです。

音声認識

Transformers

#スウェーデン語音声認識 #高精度WER #言語モデルに依存しない

ダウンロード数 38

リリース時間 : 3/2/2022

モデル概要

このモデルは、スウェーデン語の自動音声認識(ASR)に使用されるWav2vec 2.0モデルで、NSTスウェーデン語ASRデータベースとCommon Voiceデータセットで微調整されています。

モデル特徴

高性能なスウェーデン語認識

NSTテストセットでは5.62%のWER、Common Voiceテストセットでは19.15%のWERを達成します。

複数のデータセットでの学習

NSTスウェーデン語ASRデータベースとCommon Voiceデータセットを使って微調整されています。

言語モデル不要

追加の言語モデルのサポートなしで直接使用できます。

モデル能力

スウェーデン語音声認識

16kHzオーディオ処理

使用事例

音声から文字への変換

スウェーデン語音声の文字起こし

スウェーデン語の音声内容を文字に変換します。

専門のデータセットで5.62%の単語誤り率を達成します。

音声アシスタント

スウェーデン語の音声アシスタントアプリに使用される音声認識コンポーネントです。

🚀 Wav2vec 2.0 base-voxpopuli-sv-swedish

このモデルは、FacebookのVoxPopuli-sv baseモデルをNSTとCommon Voiceのデータを使用してファインチューニングしたバージョンです。言語モデルを使用せずに評価すると、NST + Common Voiceのテストセット（全文の2%）のWERは5.62%、Common VoiceのテストセットのWERは**19.15%**となります。

このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルに関する概要や使用上の注意点を説明します。

データセット

Property	Details
データセット	common_voice, NST Swedish ASR Database
評価指標	wer
タグ	audio, automatic-speech-recognition, speech, voxpopuli
ライセンス	cc-by-nc-4.0

モデル評価結果

モデル名: Wav2vec 2.0 base VoxPopuli-sv swedish
- タスク: 音声認識 (automatic-speech-recognition)
  - データセット: NST Swedish ASR Database
    - 評価指標: Test WER (wer)
    - 値: 5.619804368919309
  - データセット: Common Voice (sv-SE)
    - 評価指標: Test WER (wer)
    - 値: 19.145252414798616

✨ 主な機能

このモデルは、自動音声認識（Automatic Speech Recognition, ASR）タスクに特化しており、FacebookのVoxPopuli-sv baseモデルをNSTとCommon Voiceのデータでファインチューニングしたものです。

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションは省略します。

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = load_dataset("common_voice", "sv-SE", split="test[:2%]")
processor = Wav2Vec2Processor.from_pretrained("KBLab/wav2vec2-base-voxpopuli-sv-swedish")
model = Wav2Vec2ForCTC.from_pretrained("KBLab/wav2vec2-base-voxpopuli-sv-swedish")
resampler = torchaudio.transforms.Resample(48_000, 16_000)
# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch
test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])