wav2vec2-base-10k-voxpopuli-ft-plオープンソース音声認識モデル - ポーランド語の音声トランスクリプションを高精度に実現

ホーム

Wav2vec2 Base 10k Voxpopuli Ft Pl

facebookによって開発

VoxPopuliコーパスの10Kの未ラベルデータで事前学習され、ポーランド語の転写データでファインチューニングされたWav2Vec2音声認識モデル

音声認識

Transformers

その他#ポーランド語音声認識 #VoxPopuliファインチューニング #多言語事前学習

ダウンロード数 203

リリース時間 : 3/2/2022

モデル概要

このモデルはFacebook Wav2Vec2ベースアーキテクチャのポーランド語版で、ポーランド語音声認識タスクに特化して最適化されており、生の音声からテキストへの変換タスクに適しています。

モデル特徴

多言語事前学習

VoxPopuli多言語コーパスで事前学習されており、言語横断的な表現能力を有する

ポーランド語最適化

ポーランド語の音声特性に特化してファインチューニングされており、認識精度が向上している

エンドツーエンド認識

生の音声入力から直接テキスト出力を生成し、中間の特徴抽出が不要

モデル能力

ポーランド語音声認識

音声からテキストへの変換

自動音声転写

使用事例

音声転写

会議議録の自動化

ポーランド語の会議録音を自動的に文字記録に変換

音声アシスタント

ポーランド語ユーザーに音声インタラクション機能を提供

アクセシビリティ技術

リアルタイム字幕生成

聴覚障害者向けにポーランド語の音声コンテンツのリアルタイム字幕を提供

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

このモデルは、FacebookのWav2Vec2のベースモデルを、VoxPopuliコーパスの10Kのラベルなしサブセットで事前学習し、ポーランド語（pl）の転記データでファインチューニングしたものです。詳細は論文の表1を参照してください。

✨ 主な機能

音声関連のタスクに特化しています。
自動音声認識に適しています。
VoxPopuliコーパスを利用して訓練されています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-pl")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-pl")

# load dataset
ds = load_dataset("common_voice", "pl", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))

📚 ドキュメント

参考論文

論文: VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

著者: Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux （Facebook AI）

詳細情報は公式ウェブサイトを参照してください。こちら