wav2vec2-base-10k-voxpopuli-ft-esオープンソース音声認識モデル - スペイン語音声を高精度に認識する

ホーム

Wav2vec2 Base 10k Voxpopuli Ft Es

facebookによって開発

Facebook Wav2Vec2基本モデルを基に、VoxPopuliコーパスの10K未ラベルサブセットで事前学習し、スペイン語書き起こしデータでファインチューニングした音声認識モデルです。

音声認識

Transformers

スペイン語#スペイン語音声認識 #VoxPopuliファインチューニング #多様なシナリオの音声書き起こし

ダウンロード数 34

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)システムで、スペイン語音声書き起こしタスクに特化して最適化されており、スペイン語音声をテキストに変換するのに適しています。

モデル特徴

多言語事前学習基盤

VoxPopuli多言語コーパスで事前学習されており、強力な音声特徴抽出能力を備えています

スペイン語特化最適化

スペイン語書き起こしデータでファインチューニングされており、スペイン語音声の特徴に特化して最適化されています

エンドツーエンド音声認識

生の音声入力から直接テキスト出力を生成し、複雑な特徴量設計が不要です

モデル能力

スペイン語音声認識

音声書き起こし

音声テキスト変換

使用事例

音声書き起こし

会議議録自動生成

スペイン語会議録音を自動的に文字起こし

議録作成効率向上、手作業による書き起こし時間削減

メディア字幕生成

スペイン語動画コンテンツに自動字幕を生成

メディアコンテンツのアクセシビリティ向上、字幕制作コスト削減

音声アシスタント

スペイン語音声コマンド認識

スペイン語音声アシスタントのコマンド認識に使用

音声インタラクションシステムの精度とユーザー体験向上

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

FacebookのWav2Vec2のベースモデルは、VoxPopuliコーパスの10Kのラベルなしサブセットで事前学習され、スペイン語の転記データでファインチューニングされています（詳細は論文の表1を参照）。

論文: VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

著者: Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux（Facebook AI）

詳細については、公式ウェブサイトを参照してください。

🚀 クイックスタート

このセクションでは、このモデルをCommon Voiceデータセットのサンプルに対して推論する方法を説明します。

💻 使用例

基本的な使用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-es")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-es")

# load dataset
ds = load_dataset("common_voice", "es", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))