wav2vec2-base-10k-voxpopuli-ft-roオープンソース音声認識モデル

ホーム

Wav2vec2 Base 10k Voxpopuli Ft Ro

facebookによって開発

FacebookのWav2Vec2アーキテクチャに基づく音声認識モデルで、ルーマニア語に対して微調整され、自動音声認識タスクに適しています。

音声認識

Transformers

その他#ルーマニア語音声認識 #VoxPopuli事前学習 #多シーン音声文字起こし

ダウンロード数 36

リリース時間 : 3/2/2022

モデル概要

このモデルはFacebookのWav2Vec2ベースモデルの微調整版で、VoxPopuliコーパスの1万件の無ラベルデータを使って事前学習され、ルーマニア語の文字起こしデータで微調整され、専用のルーマニア語音声認識に使用されます。

モデル特徴

多段階学習

まず大規模な無ラベルデータで事前学習し、次に特定の言語のラベル付きデータで微調整する

ルーマニア語最適化

専用にルーマニア語の音声特性に合わせて最適化されている

効率的な表現学習

Wav2Vec2アーキテクチャを利用して、生の音声から効果的な音声表現を学習する

モデル能力

ルーマニア語音声認識

音声テキスト変換

音声内容文字起こし

使用事例

音声文字起こし

音声内容の文字起こし

ルーマニア語の音声内容をテキストに変換する

ルーマニア語の音声内容を正確に文字起こしする

音声アシスタント

ルーマニア語音声コマンド認識

ルーマニア語の音声アシスタントシステムの音声認識コンポーネントに使用する

ルーマニア語の音声コマンドを正確に理解する

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

このモデルは、FacebookのWav2Vec2 のベースモデルを、VoxPopuliコーパスの10Kのラベルなしサブセットで事前学習し、ルーマニア語（ro）の転記データで微調整したものです。詳細については、論文の表1を参照してください。

✨ 主な機能

自動音声認識に特化した事前学習済みモデルで、ルーマニア語に最適化されています。
VoxPopuliコーパスを使用して事前学習され、広範な音声データに対応します。

📚 ドキュメント

論文情報

論文: VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation 著者: Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux （Facebook AI）

公式サイト

詳細情報は、公式サイトを参照してください。

💻 使用例

基本的な使用法

以下は、Common Voiceデータセットのサンプルに対して推論を行う方法を示しています。

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-ro")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-ro")

# load dataset
ds = load_dataset("common_voice", "ro", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))