wav2vec2-base-10k-voxpopuli-ft-fiオープンソースモデル - フィンランド語の自動音声認識を正確に実現

ホーム

Wav2vec2 Base 10k Voxpopuli Ft Fi

facebookによって開発

Facebook Wav2Vec2基本モデルに基づき、VoxPopuliコーパスの10K未ラベルサブセットで事前学習され、フィンランド語転写データでファインチューニングされた自動音声認識モデルです。

音声認識

Transformers

その他#フィンランド語音声認識 #多言語事前学習 #低リソース最適化

ダウンロード数 24

リリース時間 : 3/2/2022

モデル概要

このモデルはフィンランド語向けの自動音声認識(ASR)システムで、フィンランド語音声をテキストに変換できます。

モデル特徴

VoxPopuliコーパスベース

大規模多言語音声コーパスVoxPopuliを使用した事前学習により、強力な音声理解能力を確保

フィンランド語最適化

フィンランド語に特化してファインチューニングされ、フィンランド語音声の認識精度を向上

エンドツーエンド音声認識

生の音声入力から直接テキスト出力を生成し、音声認識プロセスを簡素化

モデル能力

フィンランド語音声認識

音声からテキストへ

音声転写

使用事例

音声書き起こし

会議議録自動化

フィンランド語会議録音を自動的に文字記録に変換

音声アシスタント

フィンランド語音声アシスタントに音声認識機能を提供

アクセシビリティ技術

リアルタイム字幕生成

フィンランド語動画コンテンツにリアルタイム字幕を生成

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

このモデルは、FacebookのWav2Vec2のベースモデルを、VoxPopuliコーパスの10Kのラベルなしサブセットで事前学習し、fiの転記データで微調整したものです。（詳細は論文の表1を参照）

🚀 クイックスタート

このモデルは、音声認識タスクに使用できます。以下のセクションでは、推論の使い方を説明します。

✨ 主な機能

オーディオデータの自動音声認識
VoxPopuliコーパスを用いた事前学習とfi言語での微調整

📄 ライセンス

このモデルは、cc-by-nc-4.0ライセンスの下で提供されています。

📚 ドキュメント

論文情報

論文: VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
著者: Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux （Facebook AI）

詳細な情報は、公式ウェブサイトを参照してください。

💻 使用例

基本的な使用法

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-fi")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-fi")

# load dataset
ds = load_dataset("common_voice", "fi", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))