Wav2vec2 2 Bart Large Tedlium

W

Wav2vec2 2 Bart Large Tedlium

sanchit-gandhiによって開発

TEDLIUMコーパスで訓練されたシーケンス・ツー・シーケンスの自動音声認識モデルで、Wav2Vec2音声エンコーダとBartテキストデコーダを組み合わせたもの

音声認識英語#TEDトーク文字起こし #低い単語誤り率 #音声エンコーダ-テキストデコーダ

ダウンロード数 111

リリース時間 : 6/29/2022

モデル概要

このモデルは英語音声認識タスク用で、Wav2Vec2を音声エンコーダ、Bartをテキストデコーダとするハイブリッドアーキテクチャを採用し、TEDトークデータセットで優れた性能を発揮します

モデル特徴

ハイブリッドアーキテクチャ

Wav2Vec2音声エンコーダとBartテキストデコーダの利点を組み合わせ、効率的な音声認識を実現

高性能

TEDLIUMテストセットで6.4%の単語誤り率(WER)を達成し、優れた性能を示す

事前学習初期化

エンコーダとデコーダはそれぞれWav2Vec2 LV-60kとBart largeの事前学習済み重みで初期化

モデル能力

英語音声認識

長時間音声処理

高品質な文字起こし

使用事例

会議議事録

TEDトーク文字起こし

TEDトークの音声を自動的に文字原稿に変換

テストセット単語誤り率6.4%

教育

講義録音文字起こし

学術講義の録音を文字に変換し、ノートや字幕に利用

🚀 Wav2Vec2-2-Bart-Large-Tedlium

このモデルは、TEDLIUMコーパス（リリース3）で学習されたシーケンス-2-シーケンス（seq2seq）モデルです。音声エンコーダとテキストデコーダを組み合わせて、自動音声認識を行います。エンコーダの重みは@facebookのWav2Vec2 LV-60kチェックポイントで初期化され、デコーダの重みは@facebookのBart largeチェックポイントで初期化されます。

モデルを使用する際には、音声入力が16Khzでサンプリングされていることを確認してください。このモデルは、開発セットで9.0％、テストセットで6.4％の単語誤り率（WER）を達成しています。学習ログには、50kステップの微調整にわたる学習と評価の進捗が記録されています。

🚀 クイックスタート

このモデルは、音声ファイルの文字起こしを行うために、以下のようにスタンドアロンの音響モデルとして使用できます。

基本的な使用法

 from transformers import AutoProcessor, SpeechEncoderDecoderModel
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = AutoProcessor.from_pretrained("sanchit-gandhi/wav2vec2-2-bart-large-tedlium")
 model = SpeechEncoderDecoderModel.from_pretrained("sanchit-gandhi/wav2vec2-2-bart-large-tedlium")
     
 # load dummy dataset
 ds = load_dataset("sanchit-gandhi/tedlium_dummy", split="validation")
 
 # process audio inputs
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # run inference (greedy search)
 generated = model.generate(input_values)
 
 # decode
 decoded = processor.batch_decode(generated, skip_special_tokens=True)
 print("Target: ", ds["text"][0])
 print("Transcription: ", decoded[0])

✨ 主な機能

音声エンコーダとテキストデコーダを組み合わせた自動音声認識機能。
TEDLIUMコーパス（リリース3）で学習されたseq2seqモデル。
開発セットで9.0％、テストセットで6.4％の単語誤り率（WER）を達成。

📚 ドキュメント

評価

以下のコードスニペットは、Wav2Vec2-Large-TedliumをTEDLIUMテストデータで評価する方法を示しています。

from datasets import load_dataset
from transformers import AutoProcessor, SpeechEncoderDecoderModel
import torch
from jiwer import wer

tedlium_eval = load_dataset("LIUM/tedlium", "release3", split="test")

def filter_ds(text):
    return text != "ignore_time_segment_in_scoring"

# remove samples ignored from scoring
tedlium_eval = tedlium_eval.map(filter_ds, input_columns=["text"])

model = SpeechEncoderDecoderModel.from_pretrained("sanchit-gandhi/wav2vec2-2-bart-large-tedlium").to("cuda")
processor = AutoProcessor.from_pretrained("sanchit-gandhi/wav2vec2-2-bart-large-tedlium")

gen_kwargs = {
        "max_length": 200,
        "num_beams": 5,
        "length_penalty": 1.2
        }

def map_to_pred(batch):
    input_values = processor(batch["audio"]["array"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        generated = model.generate(input_values.to("cuda"), **gen_kwargs)
    decoded = processor.batch_decode(generated, skip_special_tokens=True)
    batch["transcription"] = decoded[0]
    return batch

result = tedlium_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["speech"])
print("WER:", wer(result["text"], result["transcription"]))

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

メトリクス

名称	種類	値
Dev WER	wer	9.0
Test WER	wer	6.4

データセット

LIUM/tedlium

タグ

automatic-speech-recognition

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase