オープンソースのWav2Vec2-base-960h音声認識モデル - 英語の音声をテキストに変換する無料サポート

ホーム

Wav2vec2 Base 960h

tommy19970714によって開発

Wav2Vec2は自己教師あり学習に基づく音声認識モデルで、Facebookによって開発され、LibriSpeechデータセットでトレーニングされ、英語音声からテキストへの変換タスクをサポートします。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高精度音声認識 #英語音声転写 #エンドツーエンド音響モデル

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)システムで、英語音声をテキストに変換できます。Transformerアーキテクチャに基づき、960時間のLibriSpeechデータでトレーニングされています。

モデル特徴

自己教師あり学習

自己教師あり学習手法で事前トレーニングされ、手動アノテーションデータへの依存を軽減

高精度

LibriSpeechテストセットで3.4% (clean)および8.6% (other)の単語誤り率(WER)を達成

エンドツーエンドトレーニング

従来の音声認識システムの独立コンポーネントを必要とせず、生の音声から直接学習

モデル能力

英語音声認識

音声からテキストへの変換

音声転写

使用事例

音声転写

会議議事録

会議録音を自動転写

音質に依存し、クリアな音声では96.6%の精度を達成

ポッドキャスト転写

ポッドキャストコンテンツをテキストに変換

支援技術

リアルタイム字幕生成

動画やライブ配信にリアルタイムで字幕を生成

🚀 Wav2Vec2-Base-960h

このリポジトリは、公式のFacebookのwav2vecを再実装したものです。wav2vecの事前学習モデルをpytorch.binファイルに変換する方法についての説明はありません。我々は事前学習モデルからpytorch.binを再構築しています。以下に変換方法を示します。

🚀 クイックスタート

pip install transformers[sentencepiece]
pip install fairseq -U

git clone https://github.com/huggingface/transformers.git
cp transformers/src/transformers/models/wav2vec2/convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py .

wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small_960h.pt -O ./wav2vec_small_960h.pt
mkdir dict
wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt

mkdir outputs
python convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py --pytorch_dump_folder_path ./outputs --checkpoint_path ./wav2vec_small_960h.pt --dict_path ./dict

💻 使用例

基本的な使用法

音声ファイルを文字起こしするために、このモデルは以下のように独立した音響モデルとして使用できます。

 from transformers import Wav2Vec2Tokenizer, Wav2Vec2ForCTC
 from datasets import load_dataset
 import soundfile as sf
 import torch
 
 # load model and tokenizer
 tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
 
 # define function to read in sound file
 def map_to_array(batch):
     speech, _ = sf.read(batch["file"])
     batch["speech"] = speech
     return batch
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 ds = ds.map(map_to_array)
 
 # tokenize
 input_values = tokenizer(ds["speech"][:2], return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = tokenizer.batch_decode(predicted_ids)

高度な使用法

このコードスニペットは、LibriSpeechの"clean"と"other"のテストデータでfacebook/wav2vec2-base-960hを評価する方法を示しています。

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
import soundfile as sf
import torch
from jiwer import wer


librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h").to("cuda")
tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

librispeech_eval = librispeech_eval.map(map_to_array)

def map_to_pred(batch):
    input_values = tokenizer(batch["speech"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = tokenizer.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["speech"])

print("WER:", wer(result["text"], result["transcription"]))