wav2vec2-conformer-rel-pos-large-100h-ftオープンソース音声認識モデル - 高精度な認識で効率的な音声処理を支援

ホーム

Wav2vec2 Conformer Rel Pos Large 100h Ft

facebookによって開発

相対位置埋め込み技術を採用したWav2Vec2-Conformer大型音声認識モデル、Librispeech 100時間音声データで微調整

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #相対位置埋め込み #高精度音声認識 #Librispeech微調整

ダウンロード数 99

リリース時間 : 4/18/2022

モデル概要

これはWav2Vec2-Conformerアーキテクチャに基づく自動音声認識(ASR)モデルで、相対位置埋め込み技術を採用し、Librispeech 100時間音声データで微調整されており、16kHzサンプリングレートの英語音声認識タスクに適しています。

モデル特徴

相対位置埋め込み

相対位置埋め込み技術を採用し、長いシーケンスの音声認識性能を向上させる可能性があります

Conformerアーキテクチャ

TransformerとCNNの利点を組み合わせ、局所的およびグローバルな音声特徴を同時に捉えることができます

効率的な訓練

Librispeech 100時間データに基づく微調整で、完全な960時間データ訓練に比べてより効率的です

モデル能力

英語音声認識

16kHzサンプリングレート音声処理

使用事例

音声からテキストへ

会議議事録

英語会議録音を自動的にテキスト記録に変換

ポッドキャスト転写

英語ポッドキャストコンテンツをテキストに転写

🚀 Wav2Vec2-Conformer-Large-100h with Relative Position Embeddings

このモデルは、相対位置埋め込みを持つWav2Vec2 Conformerです。960時間のLibrispeechで事前学習され、100時間のLibrispeechで16kHzサンプリングの音声オーディオに対して微調整されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、音声ファイルの文字起こしに使用できます。以下のように、独立した音響モデルとして使用できます。

💻 使用例

基本的な使用法

 from transformers import Wav2Vec2Processor, Wav2Vec2ConformerForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-conformer-rel-pos-large-100h-ft")
 model = Wav2Vec2ConformerForCTC.from_pretrained("facebook/wav2vec2-conformer-rel-pos-large-100h-ft")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)