wav2vec2-base-timit-asrオープンソース音声認識モデル - 16kHz音声入力をサポート、高精度認識

ホーム

Wav2vec2 Base Timit Asr

elgeishによって開発

facebook/wav2vec2-baseをtimit_asrデータセットでファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポート

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #英語音声認識 #TIMITデータセット #言語モデル不要

ダウンロード数 174

リリース時間 : 3/2/2022

モデル概要

これは自動音声認識(ASR)のためのモデルで、TIMITデータセットに特化して最適化されており、英語音声をテキストに変換できます

モデル特徴

言語モデル不要

このモデルは追加の言語モデルなしで直接使用可能

16kHzサンプリングレートサポート

16kHzサンプリングレートの音声入力を処理するために特別に最適化

TIMITデータセット最適化

TIMIT ASRデータセットで特化してファインチューニング済み

モデル能力

英語音声認識

音声からテキストへの変換

自動音声転写

使用事例

音声転写

音声から文字へ

英語音声をテキスト形式に変換

例に示す通り、大部分の内容を正確に転写可能ですが、一部の単語で小さな誤りが発生する可能性があります

音声分析

音声内容分析

音声内容を分析してキー情報を抽出

🚀 Wav2Vec2-Base-TIMIT

facebook/wav2vec2-base を timit_asr データセットでファインチューニングしたモデルです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

💻 使用例

基本的な使用法

import soundfile as sf
import torch
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

model_name = "elgeish/wav2vec2-base-timit-asr"
processor = Wav2Vec2Processor.from_pretrained(model_name)
model = Wav2Vec2ForCTC.from_pretrained(model_name)
model.eval()

dataset = load_dataset("timit_asr", split="test").shuffle().select(range(10))
char_translations = str.maketrans({"-": " ", ",": "", ".": "", "?": ""})

def prepare_example(example):
    example["speech"], _ = sf.read(example["file"])
    example["text"] = example["text"].translate(char_translations)
    example["text"] = " ".join(example["text"].split())  # clean up whitespaces
    example["text"] = example["text"].lower()
    return example

dataset = dataset.map(prepare_example, remove_columns=["file"])
inputs = processor(dataset["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")

with torch.no_grad():
    predicted_ids = torch.argmax(model(inputs.input_values).logits, dim=-1)
predicted_ids[predicted_ids == -100] = processor.tokenizer.pad_token_id  # see fine-tuning script
predicted_transcripts = processor.tokenizer.batch_decode(predicted_ids)

for reference, predicted in zip(dataset["text"], predicted_transcripts):
    print("reference:", reference)
    print("predicted:", predicted)
    print("--")

以下は出力例です:

reference: she had your dark suit in greasy wash water all year
predicted: she had your dark suit in greasy wash water all year
--
reference: where were you while we were away
predicted: where were you while we were away
--
reference: cory and trish played tag with beach balls for hours
predicted: tcory and trish played tag with beach balls for hours
--
reference: tradition requires parental approval for under age marriage
predicted: tradition requires parrental proval for under age marrage
--
reference: objects made of pewter are beautiful
predicted: objects made of puder are bautiful
--
reference: don't ask me to carry an oily rag like that
predicted: don't o ask me to carry an oily rag like that
--
reference: cory and trish played tag with beach balls for hours
predicted: cory and trish played tag with beach balls for ours
--
reference: don't ask me to carry an oily rag like that
predicted: don't ask me to carry an oily rag like that
--
reference: don't do charlie's dirty dishes
predicted: don't  do chawly's tirty dishes
--
reference: only those story tellers will remain who can imitate the style of the virtuous
predicted: only those story tillaers will remain who can imvitate the style the virtuous