wav2vec2 - lv - 60 - espeak - cv - ftオープンソースモデル

ホーム

Wav2vec2 Lv 60 Espeak Cv Ft

facebookによって開発

このモデルはWav2Vec2-Large-LV60事前学習モデルを基に、CommonVoiceデータセットでファインチューニングされ、多言語音素認識に使用されます。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #多言語音素認識 #ゼロショット転移学習 #音声から音素への変換

ダウンロード数 18.77k

リリース時間 : 3/2/2022

モデル概要

このモデルは主に多言語の音素認識タスクに使用され、音声入力を音素ラベルに変換できます。音素から単語へのマッピング辞書と併用する必要があります。

モデル特徴

多言語サポート

複数言語の音素認識をサポート

CommonVoiceベースのファインチューニング

CommonVoiceデータセットでファインチューニングされており、認識精度が向上

音素レベル認識

出力は音素ラベルで、辞書と組み合わせて単語に変換する必要がある

モデル能力

音声認識

音素認識

多言語処理

使用事例

音声転写

多言語音声転写

複数言語の音声を音素ラベルに変換

さらに文字に変換可能

音声学研究

音素分析

異なる言語の音素分布と特徴を分析するために使用

🚀 Wav2Vec2-Large-LV60 を多言語Common Voiceでファインチューニング

このチェックポイントは、事前学習されたチェックポイント wav2vec2-large-lv60 を利用し、CommonVoice でファインチューニングされ、複数の言語の音素ラベルを認識するようになっています。

モデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。モデルは音素ラベルの文字列として出力します。音素出力ラベルを出力単語にマッピングするには、音素ラベルと単語を対応付けた辞書を使用する必要があります。

論文: Simple and Effective Zero-shot Cross-lingual Phoneme Recognition

著者: Qiantong Xu, Alexei Baevski, Michael Auli

概要自己学習、自己教師付き事前学習、教師なし学習における最近の進歩により、ラベル付きデータなしでも良好な性能を発揮する音声認識システムが可能になりました。しかし、多くの場合、関連言語のラベル付きデータが利用可能でありながら、これらの手法では活用されていません。この論文では、事前学習された多言語wav2vec 2.0モデルをファインチューニングすることで、未知の言語を文字起こしするゼロショットのクロス言語転移学習に関する従来の研究を拡張しています。これは、発音特徴を用いて学習言語の音素をターゲット言語にマッピングすることで行われます。実験の結果、このシンプルな手法は、タスク固有のアーキテクチャを導入し、単言語で事前学習されたモデルの一部のみを使用した従来の手法を大きく上回ることが示されています。

元のモデルは https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で確認できます。

🚀 クイックスタート

このモデルは、事前学習されたチェックポイント wav2vec2-large-lv60 をベースに、CommonVoice でファインチューニングされ、複数の言語の音素ラベルを認識するようになっています。

✨ 主な機能

事前学習されたモデルを利用し、多言語の音素ラベルを認識することができます。
ゼロショットのクロス言語転移学習を行うことで、未知の言語を文字起こしすることができます。

📦 インストール

このモデルを使用するには、transformers と datasets ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers datasets torch

💻 使用例

基本的な使用法

音声ファイルを文字起こしするには、モデルを以下のように独立した音響モデルとして使用できます。

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values

# retrieve logits
with torch.no_grad():
  logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
# => should give ['m ɪ s t ɚ k w ɪ l t ɚ ɹ ɪ z ð ɪ ɐ p ɑː s əl ʌ v ð ə m ɪ d əl k l æ s ᵻ z æ n d w iː ɑːɹ ɡ l æ d t ə w ɛ l k ə m h ɪ z ɡ ɑː s p əl']