🚀 Wav2Vec2-Large-LV60 を多言語Common Voiceでファインチューニング
このチェックポイントは、事前学習されたチェックポイント wav2vec2-large-lv60 を利用し、CommonVoice でファインチューニングされ、複数の言語の音素ラベルを認識するようになっています。
モデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。
モデルは音素ラベルの文字列として出力します。音素出力ラベルを出力単語にマッピングするには、音素ラベルと単語を対応付けた辞書を使用する必要があります。
論文: Simple and Effective Zero-shot Cross-lingual Phoneme Recognition
著者: Qiantong Xu, Alexei Baevski, Michael Auli
概要
自己学習、自己教師付き事前学習、教師なし学習における最近の進歩により、ラベル付きデータなしでも良好な性能を発揮する音声認識システムが可能になりました。しかし、多くの場合、関連言語のラベル付きデータが利用可能でありながら、これらの手法では活用されていません。この論文では、事前学習された多言語wav2vec 2.0モデルをファインチューニングすることで、未知の言語を文字起こしするゼロショットのクロス言語転移学習に関する従来の研究を拡張しています。これは、発音特徴を用いて学習言語の音素をターゲット言語にマッピングすることで行われます。実験の結果、このシンプルな手法は、タスク固有のアーキテクチャを導入し、単言語で事前学習されたモデルの一部のみを使用した従来の手法を大きく上回ることが示されています。
元のモデルは https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で確認できます。
🚀 クイックスタート
このモデルは、事前学習されたチェックポイント wav2vec2-large-lv60 をベースに、CommonVoice でファインチューニングされ、複数の言語の音素ラベルを認識するようになっています。
✨ 主な機能
- 事前学習されたモデルを利用し、多言語の音素ラベルを認識することができます。
- ゼロショットのクロス言語転移学習を行うことで、未知の言語を文字起こしすることができます。
📦 インストール
このモデルを使用するには、transformers
と datasets
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers datasets torch
💻 使用例
基本的な使用法
音声ファイルを文字起こしするには、モデルを以下のように独立した音響モデルとして使用できます。
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
📚 ドキュメント
モデル情報
属性 |
详情 |
モデルタイプ |
事前学習された多言語wav2vec 2.0モデルをファインチューニングしたもの |
学習データ |
CommonVoice |
論文情報
注意事項
⚠️ 重要提示
モデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。また、モデルは音素ラベルの文字列として出力するため、音素出力ラベルを出力単語にマッピングするには、音素ラベルと単語を対応付けた辞書を使用する必要があります。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。