wav2vec2-large-tedliumオープンソース音声認識モデル - 無料で英語音声を高精度でテキストに変換

ホーム

Wav2vec2 Large Tedlium

sanchit-gandhiによって開発

TEDLIUMコーパスでファインチューニングされたWav2Vec2大型音声認識モデル、英語音声からテキストへの変換をサポート

音声認識英語オープンソースライセンス:Apache-2.0 #TEDトーク文字起こし #高精度音声認識 #英語音声処理

ダウンロード数 58

リリース時間 : 7/4/2022

モデル概要

このモデルはTEDLIUMコーパスでファインチューニングされたWav2Vec2大型モデルで、英語音声認識タスク専用です。

モデル特徴

高精度音声認識

TEDLIUMテストセットで8.2%の単語誤り率(WER)を達成

大規模事前学習

LibriVox 60,000時間の音声で事前学習済み

ドメイン適応

452時間のTEDトークデータでファインチューニング済み

モデル能力

英語音声認識

長時間音声処理

16kHzサンプリングレート音声処理

使用事例

音声文字起こし

TEDトーク文字起こし

TEDトーク音声をテキストに変換

8.4% WER（開発セット）

教育コンテンツ文字起こし

教育講義やスピーチ内容をテキストに変換

🚀 Wav2Vec2-Large-Tedlium

このモデルは、TEDLIUMコーパスでファインチューニングされたWav2Vec2の大規模モデルです。TEDの講演音声を高精度に文字起こしすることができます。

🚀 クイックスタート

このモデルは、LibriVoxプロジェクトの60,000時間のオーディオブックで事前学習されたFacebookのWav2Vec2 large LV - 60kチェックポイントで初期化されています。そして、TEDLIUMコーパス（リリース3）の452時間のTED講演でファインチューニングされています。モデルを使用する際には、音声入力が16Khzでサンプリングされていることを確認してください。

このモデルは、開発セットで8.4％、テストセットで8.2％の単語誤り率（WER）を達成しています。トレーニングログには、50kステップのファインチューニングにおけるトレーニングと評価の進捗が記録されています。

このモデルがどのようにファインチューニングされたかについての詳細は、このノートブックを参照してください。

✨ 主な機能

TEDの講演音声を高精度に文字起こしできます。
事前学習された大規模モデルをベースに、TEDLIUMコーパスでファインチューニングされています。

💻 使用例

基本的な使用法

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("sanchit-gandhi/wav2vec2-large-tedlium")
 model = Wav2Vec2ForCTC.from_pretrained("sanchit-gandhi/wav2vec2-large-tedlium")
     
 # load dummy dataset
 ds = load_dataset("sanchit-gandhi/tedlium_dummy", split="validation")
 
 # process audio inputs
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)
 print("Target: ", ds["text"][0])
 print("Transcription: ", transcription[0])

高度な使用法

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

tedlium_eval = load_dataset("LIUM/tedlium", "release3", split="test")
model = Wav2Vec2ForCTC.from_pretrained("sanchit-gandhi/wav2vec2-large-tedlium").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("sanchit-gandhi/wav2vec2-large-tedlium")
def map_to_pred(batch):
    input_values = processor(batch["audio"]["array"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch
result = tedlium_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["speech"])
print("WER:", wer(result["text"], result["transcription"]))