wav2vec2 - lv - 60 - espeak - cv - ftオープンソースモデル

Home

Wav2vec2 Lv 60 Espeak Cv Ft

Developed by facebook

このモデルはWav2Vec2-Large-LV60事前学習モデルを基に、CommonVoiceデータセットでファインチューニングされ、多言語音素認識に使用されます。

音声認識

Transformers

OtherOpen Source License:Apache-2.0 #多言語音素認識 #ゼロショット転移学習 #音声から音素への変換

Downloads 18.77k

Release Time : 3/2/2022

Model Overview

このモデルは主に多言語の音素認識タスクに使用され、音声入力を音素ラベルに変換できます。音素から単語へのマッピング辞書と併用する必要があります。

Model Features

多言語サポート

複数言語の音素認識をサポート

CommonVoiceベースのファインチューニング

CommonVoiceデータセットでファインチューニングされており、認識精度が向上

音素レベル認識

出力は音素ラベルで、辞書と組み合わせて単語に変換する必要がある

Model Capabilities

音声認識

音素認識

多言語処理

Use Cases

音声転写

多言語音声転写

複数言語の音声を音素ラベルに変換

さらに文字に変換可能

音声学研究

音素分析

異なる言語の音素分布と特徴を分析するために使用

🚀 Wav2Vec2-Large-LV60 を多言語Common Voiceでファインチューニング

このチェックポイントは、事前学習されたチェックポイント wav2vec2-large-lv60 を利用し、CommonVoice でファインチューニングされ、複数の言語の音素ラベルを認識するようになっています。

モデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。モデルは音素ラベルの文字列として出力します。音素出力ラベルを出力単語にマッピングするには、音素ラベルと単語を対応付けた辞書を使用する必要があります。

論文: Simple and Effective Zero-shot Cross-lingual Phoneme Recognition

著者: Qiantong Xu, Alexei Baevski, Michael Auli

概要自己学習、自己教師付き事前学習、教師なし学習における最近の進歩により、ラベル付きデータなしでも良好な性能を発揮する音声認識システムが可能になりました。しかし、多くの場合、関連言語のラベル付きデータが利用可能でありながら、これらの手法では活用されていません。この論文では、事前学習された多言語wav2vec 2.0モデルをファインチューニングすることで、未知の言語を文字起こしするゼロショットのクロス言語転移学習に関する従来の研究を拡張しています。これは、発音特徴を用いて学習言語の音素をターゲット言語にマッピングすることで行われます。実験の結果、このシンプルな手法は、タスク固有のアーキテクチャを導入し、単言語で事前学習されたモデルの一部のみを使用した従来の手法を大きく上回ることが示されています。

元のモデルは https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で確認できます。

🚀 クイックスタート

このモデルは、事前学習されたチェックポイント wav2vec2-large-lv60 をベースに、CommonVoice でファインチューニングされ、複数の言語の音素ラベルを認識するようになっています。

✨ 主な機能

事前学習されたモデルを利用し、多言語の音素ラベルを認識することができます。
ゼロショットのクロス言語転移学習を行うことで、未知の言語を文字起こしすることができます。

📦 インストール

このモデルを使用するには、transformers と datasets ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers datasets torch

💻 使用例

基本的な使用法

音声ファイルを文字起こしするには、モデルを以下のように独立した音響モデルとして使用できます。

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values

# retrieve logits
with torch.no_grad():
  logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
# => should give ['m ɪ s t ɚ k w ɪ l t ɚ ɹ ɪ z ð ɪ ɐ p ɑː s əl ʌ v ð ə m ɪ d əl k l æ s ᵻ z æ n d w iː ɑːɹ ɡ l æ d t ə w ɛ l k ə m h ɪ z ɡ ɑː s p əl']