wav2vec2-base-10k-voxpopuli-ft-nlオープンソース音声認識モデル

ホーム

Wav2vec2 Base 10k Voxpopuli Ft Nl

facebookによって開発

Facebook Wav2Vec2アーキテクチャに基づく音声認識モデルで、VoxPopuliコーパスの10K時間の未ラベルオランダ語データで事前学習され、オランダ語文字起こしデータでファインチューニングされています。

音声認識

Transformers

その他#オランダ語音声認識 #多言語事前学習 #VoxPopuliファインチューニング

ダウンロード数 28

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)システムで、特にオランダ語に最適化されており、オランダ語音声をテキストに変換できます。

モデル特徴

多段階トレーニング

まず10K時間の未ラベルVoxPopuliデータで事前学習し、その後オランダ語ラベルデータでファインチューニング

オランダ語最適化

オランダ語音声特性に特化して最適化されており、認識効果がより良い

Wav2Vec2アーキテクチャベース

Facebookの先進的なWav2Vec2音声処理アーキテクチャを採用

モデル能力

オランダ語音声認識

音声からテキストへの変換

自動音声文字起こし

使用事例

音声文字起こし

会議議録自動化

オランダ語会議録音を自動的に文字起こし

音声アシスタント

オランダ語音声アシスタントに音声認識能力を提供

アクセシビリティ技術

リアルタイム字幕生成

オランダ語動画コンテンツにリアルタイム字幕を生成

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

FacebookのWav2Vec2 のベースモデルは、VoxPopuliコーパスの10Kのラベルなしサブセットで事前学習され、nlの文字起こしデータで微調整されています（詳細は論文の表1を参照）。

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用できます。事前学習されたモデルを使用して、音声データからテキストを生成することができます。

✨ 主な機能

オーディオデータの自動音声認識に最適化されています。
VoxPopuliコーパスを使用して事前学習され、nl言語で微調整されています。

💻 使用例

基本的な使用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-nl")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-nl")

# load dataset
ds = load_dataset("common_voice", "nl", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))