wav2vec2-large-lv60-timitオープンソース音声認識モデル - 16kHz音声入力認識がサポートされています

ホーム

Wav2vec2 Large Lv60 Timit

harshit345によって開発

facebook/wav2vec2-large-lv60モデルをTIMITデータセットでファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

音声認識英語オープンソースライセンス:Apache-2.0 #英語音声認識 #TIMITデータセット #高精度ASR

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

このモデルは英語音声認識のための自動音声認識(ASR)システムで、TIMITデータセットでファインチューニングされており、英語音声をテキストに変換できます。

モデル特徴

高精度音声認識

TIMITテストセットで13.5%の単語誤り率(WER)を達成

言語モデル不要

追加の言語モデルサポートなしで直接使用可能

16kHzサンプリングレート対応

16kHzサンプリングレートの音声入力に最適化

モデル能力

英語音声認識

リアルタイム音声テキスト変換

音声文字起こし

使用事例

音声文字起こし

会議議事録自動文字起こし

会議録音を自動的に文字記録に変換

約86.5%の精度

音声コマンド認識

音声コマンドを認識して処理

教育

発音評価

言語学習者の発音精度評価を支援

🚀 Wav2Vec2-Large-LV60-TIMIT

このモデルは、facebook/wav2vec2-large-lv60 を timit_asr データセットでファインチューニングしたものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

✨ 主な機能

音声認識タスクに特化したモデルです。
事前学習済みのモデルをファインチューニングしているため、高精度な音声認識が可能です。

📦 インストール

本モデルは、Hugging FaceのTransformersライブラリを使用しています。必要なライブラリをインストールすることで使用できます。

💻 使用例

基本的な使用法

import soundfile as sf
import torch
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

model_name = "hktayal345/wav2vec2-large-lv60-timit-asr"
processor = Wav2Vec2Processor.from_pretrained(model_name)
model = Wav2Vec2ForCTC.from_pretrained(model_name)
model.eval()

dataset = load_dataset("timit_asr", split="test").shuffle().select(range(10))
char_translations = str.maketrans({"-": " ", ",": "", ".": "", "?": ""})

def prepare_example(example):
    example["speech"], _ = sf.read(example["file"])
    example["text"] = example["text"].translate(char_translations)
    example["text"] = " ".join(example["text"].split())  # clean up whitespaces
    example["text"] = example["text"].lower()
    return example

dataset = dataset.map(prepare_example, remove_columns=["file"])
inputs = processor(dataset["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")

with torch.no_grad():
    predicted_ids = torch.argmax(model(inputs.input_values).logits, dim=-1)
predicted_ids[predicted_ids == -100] = processor.tokenizer.pad_token_id  # see fine-tuning script
predicted_transcripts = processor.tokenizer.batch_decode(predicted_ids)

for reference, predicted in zip(dataset["text"], predicted_transcripts):
    print("reference:", reference)
    print("predicted:", predicted)
    print("--")

高度な使用法

# このコードでは、モデルを使用して音声認識を行い、結果を表示します。
import soundfile as sf
import torch
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

model_name = "hktayal345/wav2vec2-large-lv60-timit-asr"
processor = Wav2Vec2Processor.from_pretrained(model_name)
model = Wav2Vec2ForCTC.from_pretrained(model_name)
model.eval()

dataset = load_dataset("timit_asr", split="test").shuffle().select(range(10))
char_translations = str.maketrans({"-": " ", ",": "", ".": "", "?": ""})

def prepare_example(example):
    example["speech"], _ = sf.read(example["file"])
    example["text"] = example["text"].translate(char_translations)
    example["text"] = " ".join(example["text"].split())  # clean up whitespaces
    example["text"] = example["text"].lower()
    return example

dataset = dataset.map(prepare_example, remove_columns=["file"])
inputs = processor(dataset["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")

with torch.no_grad():
    predicted_ids = torch.argmax(model(inputs.input_values).logits, dim=-1)
predicted_ids[predicted_ids == -100] = processor.tokenizer.pad_token_id  # see fine-tuning script
predicted_transcripts = processor.tokenizer.batch_decode(predicted_ids)

for reference, predicted in zip(dataset["text"], predicted_transcripts):
    print("reference:", reference)
    print("predicted:", predicted)
    print("--")

📚 ドキュメント

ファインチューニングスクリプト

このモデルを生成するために使用されたスクリプトは、こちらで確認できます。

注意: このモデルはさらにファインチューニングすることができます。trainer_state.json には、最後の状態（このチェックポイント）などの有用な詳細が表示されます。

{
    "epoch": 29.51,
    "eval_loss": 25.424150466918945,
    "eval_runtime": 182.9499,
    "eval_samples_per_second": 9.183,
    "eval_wer": 0.1351704233095107,
    "step": 8500
}