🚀 wav2vec2-xls-r-300m-phoneme
このモデルは、Timitデータセットで微調整された自動音声認識モデルで、音素認識タスクに適用できます。
🚀 クイックスタート
このモデルは、facebook/wav2vec2-xls-r-300m をTimitデータセットで微調整したバージョンです。学習の詳細については、このノートブック を確認してください。
✨ 主な機能
- 自動音声認識タスクに特化したモデルで、音素認識に適用できます。
- HuggingFaceのpipelineを使用することで、生の音声入力からテキスト出力までをエンドツーエンドで処理できます。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールしてください。
pip install transformers datasets torch soundfile
💻 使用例
基本的な使用法
HuggingFaceのpipelineを使用して、生の音声入力からテキスト出力までをエンドツーエンドで処理する方法です。
from transformers import pipeline
pipe = pipeline(model="vitouphy/wav2vec2-xls-r-300m-timit-phoneme")
output = pipe("audio_file.wav", chunk_length_s=10, stride_length_s=(4, 2))
高度な使用法
よりカスタマイズした方法で音素を予測する方法です。
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch
import soundfile as sf
processor = Wav2Vec2Processor.from_pretrained("vitouphy/wav2vec2-xls-r-300m-timit-phoneme")
model = Wav2Vec2ForCTC.from_pretrained("vitouphy/wav2vec2-xls-r-300m-timit-phoneme")
audio_input, sample_rate = sf.read("audio_file.wav")
inputs = processor(audio_input, sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, axis=-1)
predicted_sentences = processor.batch_decode(predicted_ids)
print(predicted_sentences)
📚 ドキュメント
学習と評価データ
このモデルでは、DARPA TIMITデータセット を使用しています。
- 学習、検証、テストにそれぞれ 80/10/10 に分割しています。
- これはおおよそ 137/17/17 分に相当します。
- このテストセットでは、7.996% の結果を得ています。
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 3e-05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 42
- gradient_accumulation_steps: 4
- total_train_batch_size: 32
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 2000
- training_steps: 10000
- mixed_precision_training: Native AMP
フレームワークバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
引用
@misc { phy22-phoneme,
author = {Phy, Vitou},
title = {{Automatic Phoneme Recognition on TIMIT Dataset with Wav2Vec 2.0}},
year = 2022,
note = {{If you use this model, please cite it using these metadata.}},
publisher = {Hugging Face},
version = {1.0},
doi = {10.57967/hf/0125},
url = {https://huggingface.co/vitouphy/wav2vec2-xls-r-300m-timit-phoneme}
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
属性 |
详情 |
モデルタイプ |
自動音声認識(Automatic Speech Recognition) |
学習データ |
DARPA TIMITデータセット |