wav2vec2-xlsr-53-espeak-cv-ftオープンソースモデル - 多言語音素ラベル認識をサポート

ホーム

Wav2vec2 Xlsr 53 Espeak Cv Ft

facebookによって開発

このモデルは、wav2vec2-large-xlsr-53の事前学習モデルをCommonVoiceデータセットで微調整した多言語音素識別モデルで、複数の言語の音素ラベル識別をサポートします。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #多言語音素識別 #ゼロサンプル転移学習 #音声を音素に変換

ダウンロード数 315.39k

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)タスクに使用され、特に多言語音素識別に最適化されています。16kHzのサンプリングレートの音声入力を音素ラベルシーケンスに変換することができます。

モデル特徴

多言語音素識別

複数の言語の音素ラベルを識別でき、異言語音声認識タスクに適しています

CommonVoiceに基づく微調整

CommonVoiceデータセットで微調整され、実際の音声データの識別能力が向上しました

ゼロサンプル異言語転移

ゼロサンプル異言語転移学習をサポートし、未見の言語を処理できます

モデル能力

音声認識

音素識別

多言語処理

ゼロサンプル異言語転移

使用事例

音声文字起こし

多言語音素文字起こし

音声を音素シーケンスに変換し、音素レベルの分析が必要なアプリケーションに適しています

音素ラベルシーケンスとして出力されます

音声学研究

異言語音素分析

異なる言語間の音素分布と差異を研究します

🚀 Wav2Vec2-Large-XLSR-53を多言語Common Voiceで微調整

本プロジェクトは、事前学習モデル wav2vec2-large-xlsr-53 をベースに、CommonVoice データセットで微調整を行い、複数言語の音素ラベルを識別することを目的としています。

このモデルを使用する際には、入力する音声のサンプリングレートが16kHzであることを確認してください。また、モデルの出力は音素ラベルの列であり、音素ラベルを単語にマッピングする辞書を使用して、音素出力ラベルを出力単語に変換する必要があります。

論文：Simple and Effective Zero-shot Cross-lingual Phoneme Recognition

著者：Qiantong Xu、Alexei Baevski、Michael Auli

概要最近では、自己学習、自己教師付き事前学習、教師なし学習の進歩により、ラベル付きデータを一切使用しない音声認識システムでも優れた性能が得られるようになりました。しかし、多くの場合、関連言語のラベル付きデータはこれらの方法で十分に活用されていません。本論文では、多言語事前学習されたwav2vec 2.0モデルを微調整して未知の言語を文字起こしすることで、ゼロショットのクロスリンガル転移学習に関する従来の研究を拡張しています。具体的には、発音特徴を利用して、学習言語の音素をターゲット言語にマッピングします。実験の結果、この簡単な方法は、特定のタスク用のアーキテクチャを導入し、単一言語の事前学習モデルの一部のコンポーネントのみを使用する従来の研究を大幅に上回ることが示されました。

オリジナルのモデルは https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で見つけることができます。

🚀 クイックスタート

このモデルは、音声ファイルを文字起こしする独立した音響モデルとして使用できます。使用方法は以下の通りです。

💻 使用例

基本的な使用法

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
 
 # retrieve logits
 with torch.no_grad():
   logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)
 # => should give ['m ɪ s t ɚ k w ɪ l t ɚ ɪ z ð ɪ ɐ p ɑː s əl l ʌ v ð ə m ɪ d əl k l æ s ɪ z æ n d w iː aʊ ɡ l æ d t ə w ɛ l k ə m h ɪ z ɡ ɑː s p ə']

📚 ドキュメント

モデル情報

属性	詳細
モデルタイプ	事前学習されたwav2vec2-large-xlsr-53を微調整した音声認識モデル
学習データ	CommonVoice多言語データセット
ラベル	音声、オーディオ、自動音声認識、音素認識
ライセンス	Apache-2.0

サンプル音声

注意事項

⚠️ 重要な注意

モデルを使用する際には、音声入力のサンプリングレートが16kHzであることを確認してください。モデルの出力は音素ラベルであり、辞書を使用して単語にマッピングする必要があります。