🚀 Wav2Vec2-Large-LV60-TIMIT
このモデルは、facebook/wav2vec2-large-lv60 を timit_asr データセット でファインチューニングしたものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。
🚀 クイックスタート
このモデルを使用することで、音声認識タスクを実行できます。
✨ 主な機能
- 音声入力を16kHzでサンプリングすることで、自動音声認識を行うことができます。
- 言語モデルを使用せずに直接使用することができます。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。
pip install soundfile torch datasets transformers
💻 使用例
基本的な使用法
import soundfile as sf
import torch
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
model_name = "elgeish/wav2vec2-large-lv60-timit-asr"
processor = Wav2Vec2Processor.from_pretrained(model_name)
model = Wav2Vec2ForCTC.from_pretrained(model_name)
model.eval()
dataset = load_dataset("timit_asr", split="test").shuffle().select(range(10))
char_translations = str.maketrans({"-": " ", ",": "", ".": "", "?": ""})
def prepare_example(example):
example["speech"], _ = sf.read(example["file"])
example["text"] = example["text"].translate(char_translations)
example["text"] = " ".join(example["text"].split())
example["text"] = example["text"].lower()
return example
dataset = dataset.map(prepare_example, remove_columns=["file"])
inputs = processor(dataset["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")
with torch.no_grad():
predicted_ids = torch.argmax(model(inputs.input_values).logits, dim=-1)
predicted_ids[predicted_ids == -100] = processor.tokenizer.pad_token_id
predicted_transcripts = processor.tokenizer.batch_decode(predicted_ids)
for reference, predicted in zip(dataset["text"], predicted_transcripts):
print("reference:", reference)
print("predicted:", predicted)
print("--")
高度な使用法
このモデルはさらにファインチューニングすることができます。以下は、そのためのスクリプトのリンクです。
こちら
注意: このモデルはさらにファインチューニング可能です。
trainer_state.json
には、最後の状態(このチェックポイント)を含む有用な詳細が示されています。
{
"epoch": 29.51,
"eval_loss": 25.424150466918945,
"eval_runtime": 182.9499,
"eval_samples_per_second": 9.183,
"eval_wer": 0.1351704233095107,
"step": 8500
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。